Constraining the assembly history of galaxies with cosmological simulations and deep learning
Author
Delgado Mancheño, MaríaDate
2024Abstract
Las simulaciones cosmológicas hidrodinámicas, como el proyecto IllustrisTNG, desempeñan un
papel fundamental en el estudio de la formación y evolución de las galaxias, proporcionándonos
un mayor conocimiento sobre el Universo.
Sin embargo, obtener información directa a partir de las observaciones puede resultar difícil,
ya que las propiedades observacionales no dejan trazas de cómo han evolucionado con el tiempo.
Por lo tanto, resulta interesante desarrollar modelos que nos permitan obtener información
acerca de la formación de las galaxias a partir de las observaciones. En la actualidad, se están
llevando a cabo estudios que combinan Machine Learning con las simulaciones cosmológicas
para investigar la historia de fusión de las galaxias. Sin embargo, muchos de estos modelos
carecen de la capacidad de generalizar cuando se aplican a datos observacionales reales.
El estudio realizado por Angeloudi et al. (2023)[1] aborda precisamente este problema
mediante la combinación de simulaciones, como TNG100 e EAGLE, evaluándo cómo las diferencias cosmológicas afectan a la determinación de la fracción de masa ex-situ. Los resultados
obtenidos en esta investigación indican que es posible desarrollar modelos robustos y precisos
de Machine Learning utilizando mapas de masa estelar en dos dimensiones que incluyan información cinemática. Este avance es significativo, ya que permite cuantificar la contribución
de la masa estelar ex-situ en la formación y evolución de las galaxias, la cual se define como
aquella aportación de masa debida a una galaxia externa.
Con el objetivo de mejorar este modelo y evaluar su capacidad de generalización, se propone
mediante el entrenamiento con la simulación TNG100, examinar las predicciones obtenidas de
las simulaciones del proyecto "Cosmology and Astrophysics with Machine Learning Simulation"
(CAMELS). Este proyecto varía diferentes parámetros astrofísicos y cosmológicos en comparación con la simulación con la que hemos entrenado el modelo.
Para hacer este estudio y conseguir la mayor presición posible, previamente analizamos
la correlación entre TNG100 y el Modelo Fiducial proveniente de CAMELS, que tiene las
mismas condiciones iniciales que el primero pero con una menor resolución. Esto nos llevo a la
conclusión de que había que eliminar a la Metalicidad y la Half-Stellar-Mass-Ratio como datos
de entrada en el proceso de entramiento debido a su mala correlación con la fracción de ex-situ.
Posteriormente, mediante una comprobación visual, se verifica que ambas simulaciones tienen
la misma tendencia y que la discrepacia de errores, obtenidos como la diferencia entre el valor
real y el predecido, se debe a la diferencia de resolución que tienen cada una.
Una vez realizado este paso de comprobación, procedimos a tratar los datos procedentes de
CAMELS. Para ello, mostramos gráficamente los errores calculados como se mencionó antes
y la diferencia de desviaciones estándar. Comprobamos que para ciertos parámetros, en su
mayoría los más extremos, adquieren unos valores muy significativos de estas dos magnitudes
estadísticas, en comparación con los otros. Una posible justificación que encontramos fue que
en estas simulaciones existe una mala correlación con la fracción de ex-situ, y es por ello por
lo que la precisión a la hora de obtener las predicciones no sea muy buena. A pesar de todo,
las diferencias obtenidas no son considerablemente grandes, con lo cual se podría afirmar la
generalidad del modelo.
Por otro lado, se propone utilizar la biblioteca de High-Performance Symbolic Regression
(PySR), que permite obtener una expresión analítica para calcular la fracción de ex-situ a partir
de los parámetros observacionales. Para ello, desarrollamos un código mediante los comandos
que nos ofrece, el cual genera diferentes ecuaciones con distintos niveles de complejidad. Evaluamos la diferencia entre el valor esperado y el obtenido mediante un visualizado de cajas, en
el que mostramos los errores que se obtienen según distintos porcentajes de datos, dónde se
encuentra la mediana y los valores átipicos. De todas las ecuaciones obtenidas, seleccionamos
como candidata la que aporta menos error al cálculo de la fracción de masa ex-situ. Esta expresión matemática es acorde a lo esperado, ya que depende solo de la masa estelar de la galaxia.
Esto es justificable, ya que cuánto más masiva son las galaxias, mayor es la probabilidad de
que se hayan formado mediante fusiones, contribuyendo a una parte importante de su masa.
Posteriormente, comparamos lo obtenido con PySR con las predicciones obtenidas mediante
Machine Learning de forma visual a través de un gráfico masa estelar - fracción de ex-situ.
Comprobamos que la ecuación no era capaz de representar correctamente la dispersión debido
a su forma lineal, a diferencia del modelo. En cuanto al error, con Machine Leaning se obtienen
valores más cercanos a los que buscamos que con Symbolic Regression, que a pesar de ello no
tiene errores muy significativos.
Como conclusión final, encontramos ciertos valores que presentan una mayor diferencia con
los esperados de fracción de ex-situ, en comparación con los otros parámetros astrofísicos y
cosmológicos. A pesar de ello, estas diferencias no tienen mucho peso, por lo que se puede
asegurar la generalidad del modelo. Además, aunque High-Performance Symbolic Regression
es una herramienta útil que permite encontrar expresiones sencillas que relacionan diferentes
magnitudes, el modelo utilizado mediante Machine Learning es mejor para calcular la fracción
de masa ex-situ. Por otro lado, la expresión obtenida a través de Symbolic Regression no
presenta errores muy significativos, puediendo proporcionar una primera estimación fácil y
sencilla de esta magnitud
Como trabajo futuro, se propone estudiar en detalle el por qué de esta falta de correlación
con algunas simulaciones, con el fin de conseguir la menor diferencia entre las predicciones y
el valor real. Además, se podría combinar Symbolic Regression con este modelo para poder
obtener ecuaciones más complejas y con mayor precisión para el cálculo de la fracción de exsitu.