RT info:eu-repo/semantics/bachelorThesis T1 Artificial Neural Networks and their use in simulation-based inference with the CAMELS dataset. A1 Arrizabalaga Díaz-Caneja, Cecilia A2 Grado En Física AB En las últimas décadas ha habido una evolución en el uso de la Inteligencia Artificial. AI, y más específicamente Machine Learning, es la combinación de la informática y grandes conjuntos de datos que entrenan una máquina para resolver problemas extensos o problemas exigentes. En 1943 Walter Pitts (lógico estadounidense) y Waren McCulloch (neurólogo estadounidense) introdujeron la primera red neuronal, un algoritmo de aprendizaje automático. Estos estudios brindan a las máquinas la capacidad de recopilar datos y luego procesar lo que se ha recopilado utilizando herramientas de aprendizaje automático y técnicas de predicción para tomar decisiones. Las redes neuronales son un tipo de algoritmo que hace uso de una base de datos para hacer una clasificación, i.e. clasificar nuevos datos en diferentes categorías a partir de lo aprendido con la base de datos, o una regresión, predecir valores continuos. Como su nombre indica las redes neuronales están inspiradas en el cerebro humano, imitando la forma en que las neuronas biológicas se envían señales entre sí. En este informe se pretende explicar el funcionamiento de estas redes neuronales y comentar varias de sus estructuras, así como obtener algunos resultados utilizando este tipo de algoritmos. En la segunda mitad del trabajo se describe una base de datos que se ha utilizado para deducir algunos valores de las constantes cosmológicas y astrofísicas Ωm, σ8, ASN1, ASN2, AAGN1 y AAGN2 para diferentes regiones de universos simulados. Una Red Neuronal consta de una capa de neuronas de entrada, unas capas de neuronas ocultas y una capa de neuronas de salida. Las conexiones entre las diferentes neuronas se llaman pesos, y describen con cuánta fuerza afecta el resultado de la neurona anterior. La siguiente ecuación describe el resultado o valor que tiene cada neurona [39]:h l i = f X J j=1 V l ij • h l−1 j + T l i ! donde h l i es el resultado obtenido de la neurona i en la capa l, f es la función de activación que determina si la neurona es activada o no, J es el número de neuronas de la capa anterior l−1 que tienen conexión con la neurona i, V l ij son los pesos de las conexiones entre la neurona j e i, h l−1 j es el valor que sale de la neurona j y T l i es el valor bias o valor umbral de cada neurona, es decir, el valor mínimo para activar la neurona. A través de esta expresión la información de entrada avanzada a través de la red neuronal para al final dar un valor de salida que, en el caso de ser un problema de clasificación será una categoría, y en el caso de ser un problema de regresión será un valor. Para poder tener alta eficacia la red neuronal necesita aprender utilizando una base de datos: lo que hace es calcular su valor de salida y compararlo con el valor esperado calculando la llamada función de pérdida y minimizándola actualizando los valores de los pesos y bias en cada iteración. Para conseguir esta minimización de la función de pérdida se necesitan sus derivadas, que dependen de la función de activación y los valores de los pesos. Por lo tanto, si los valores de estas derivadas o de los pesos son muy pequeños, o por el contrario muy grandes, podrían conducir al ”gradiente evanescente” y ”gradiente explosivo” respectivamente. Según la ecuación 8:V = V − λ ∂Ek ∂VPodemos comprobar que si las derivadas de la función de pérdida ∂Ek/∂V son muy pequeñas, los pesos correspondientes no se actualizarían apenas y por lo tanto la red no aprenderá correctamente. Con el gradiente explosivo pasa lo contrario. Si los valores de las derivadas son demasiado grandes nos arriesgamos a que la red nunca encuentre los valores ´óptimos de los pesos ya que da ”saltos” demasiado grandes al actualizarlos. Para obtener los resultados hemos hecho uso de la base de datos CMD, Cosmology and Astrophysics with MachinE Learning Simulation (CAMELS) Multifield Dataset (CMD) [36], una colección de mapas 2D y 3D de diferentes regiones de universos simulados, generados a partir de simulaciones magneto-hidrodinámicas y gravitacionales de N-cuerpos. Cada una de estas simulaciones pertenece a uno de los siguientes subgrupos: IllustrisTNG, SIMBA y N-body. Los mapas de todos estos grupos tienen asociados dos parámetros cosmológicos: Ωm y σ8. Sin embargo, solo los mapas de las simulaciones de IllustrisTNG y SIMBA tienen asociados los parámetros astrofísicos ASN1, ASN2, AAGN1 y AAGN2. A su vez, los mapas de estos grupos pueden representar diferentes propiedades como la temperatura del gas cósmico, su densidad, su metalicidad, etc. Concluimos este trabajo con la estimación de los parámetros anteriormente mencionados con los mapas de temperatura del gas cósmico del conjunto de simulaciones IllustrisTNG a través de MDNs (Mixture Density Functions) que, en vez de devolver directamente valores específicos de los parámetros, devuelve la media y la varianza de una distribución gaussiana. La precisión de los resultados no ha sido la esperada por el efecto del over-fitting, efecto que ocurre cuando la red neuronal es muy efectiva prediciendo datos del set de entrenamiento pero no tan buena al estimar datos que no forman parte del entrenamiento, y se deduce que los resultados se podrían mejorar añadiendo mapas para el entrenamiento de la red. YR 2022 FD 2022 LK http://riull.ull.es/xmlui/handle/915/29107 UL http://riull.ull.es/xmlui/handle/915/29107 LA es DS Repositorio institucional de la Universidad de La Laguna RD 25-nov-2024