Digging out the debris of the Milky Way past accretion events with Machine Learning
Autor
Aguiar Álvarez, AmandaFecha
2022Resumen
Nuestra posición privilegiada en el Universo hace de la Vía Láctea el laboratorio perfecto para entender los
mecanismos físicos que llevan a la formación de sus diferentes estructuras. En las últimas décadas, estos estudios
se han visto impulsados debido a la mejora en la calidad de los datos, gracias a proyectos como el Sloan Digital
Sky Survey, que permite estudiar el desplazamiento al rojo espectroscópico para un gran número de estrellas
y tomar imágenes multiespectrales, o misiones como Gaia, que proporciona un catálogo de datos astronómicos
con precisiones sin precedentes. Asimismo, es de gran relevancia la mejora en la capacidad computacional, que
ha impulsado el desarollo de simulaciones cosmológicas.
Por otro lado, el paradigma estándar de la cosmología, Lambda cold dark matter (ΛCDM), indica que las
galaxias de menor tamaño son las primeras en formarse y que las galaxias mayores, como la Vía Láctea, son
el resultado de procesos de acreción y fusión de galaxias de menor tamaño, junto a la acreción del gas. Estos
procesos de acreción y fusión de galaxias dejan marcas observables en la actualidad y que esperan encontrarse,
esencialmente, en el espacio de las integrales de movimiento de las estrellas del halo en forma de cúmulos. No
obstante, existen varios procesos, como la fricción dinámica o el aumento de la masa de la Vía Láctea con el
tiempo, que hacen que estas cantidades no se conserven en su totalidad.
El objetivo del presente trabajo es desentrañar la historia del halo estelar de la Vía Láctea mediante la
identificación de estos cúmulos en el espacio de fases, haciendo uso para ello de técnicas de Machine Learning
no supervisado. Específicamente, se ha recurrido a un modelo de mezcla Gaussiana (Gaussian Mixture) tras
comprobarse que, de entre los métodos considerados, es el que conduce a la mejor identificación de las diferentes
sobre-densidades como grupos independientes. Este modelo se basa en la probabilidad de que un cierto punto
pertenezca a una distribución en forma de Gaussiana multi-dimensional y permite obtener sus parámetros característicos (pesos, valores medios y matrices de covarianza), los cuales son iniciados haciendo uso del método
de Machine Learning conocido como K-Means. Concretamente, se emplea el método de la Bayesian Gaussian
Mixture, que emplea la regla de Bayes para encontrar el número adecuado de cúmulos dado un un límite superior en el número de componentes que puede determinar. A su vez, en este modelo se emplea una asignación a
priori de las probabilidades asociadas a cada uno de los componentes mediante el llamado proceso de Dirichlet.
Posteriormente, el modelo óptimo es encontrado a través del algoritmo de esperanza-maximización. Se utilizan
valores como el Bayesian Information Criterion (BIC) o la log-likelihood para poder comparar los diferentes
modelos.
El primer paso necesario para desarrollar este método ha sido la familiarización con esta técnica haciendo
uso de conjuntos de datos controlados; concretamente, de datos generados mediante Gaussianas cuyos parámetros son conocidos. De este modo, se aprecia el efecto que tiene la variación de los diferentes parámetros de
entrada que requiere el método, así como sus limitaciones. Esto ha permitido concluir que, efectivamente, es
posible recuperar los puntos generados por las diferentes Gaussianas como cúmulos independientes mediante el
modelo de Bayesian Gaussian Mixture.
El siguiente paso ha sido implementar estos métodos para trabajar con halos simulados en el paradigma
ΛCDM de la colaboración Auriga, correspondientes a simulaciones magneto hidrodinámicas de alta resolución
de galaxias análogas a la Vía Láctea. En este caso, las partículas de estrellas cuentan con una etiqueta que
indica su origen (como podría ser una galaxia pequeña acretada, a la que nos referiremos como su progenitor),
de modo que es posible comparar lo obtenido con los modelos de Bayesian Gaussian Mixture con los resultados
que serían esperables.
A continuación, con el fin de familiarizarnos con los datos de las simulaciones, se ha empezando haciendo
una inspección visual del espacio constituido por la energía total y el momento angular en torno al eje dicular al plano del disco de las partículas pertenecientes al halo estelar, ampliamente usados para estudiar los
procesos de acreción/fusión en la Vía Láctea, para diferentes rangos de radio en torno al centro Galáctico y
diferentes rangos de metalicidad total. Seguidamente, se han visualizado diferentes espacios de las cantidades
en las que se espera encontrar sobre-densidades asociadas a cada progenitor, es decir, a cada galaxia satélite a
la que pertenecían las estrellas antes de que los procesos de acreción tuviesen lugar. Esto ha demostrado la dificultad intrínseca de la tarea que se pretende realizar, debido a la superposición existente entre galaxias satélite
en los espacios considerados y al hecho de que un progenitor no se asocia a una única sobre-densidad. Esto
último lleva, además, a que no es posible recuperar cada uno de los progenitores como una única Gaussiana.
No obstante, este efecto es más importante en el caso de los progenitores más masivos.
Posteriormente, se ha buscado el conjunto de estrellas compuesto por los 4 progenitores más masivos en el
rango de radios y metalicidades en el que estos se distinguen con mayor facilidad en el espacio constituido por la
energía total y el momento angular a lo largo del eje perpendicular al plano del disco. Luego, se ha aplicado en
este subconjunto de datos el método de Bayesian Gaussian Mixture en los diferentes espacios en los que se espera que las estrellas que perteneciesen a un mismo progenitor aparezcan como cúmulos, obteniéndose resultados
muy semejantes. En consecuencia, se ha decidido centrar la atención en el espacio constituido por la energía
total y el momento angular vertical, junto al momento angular perpendicular, por ser más fáciles de interpretar.
Una vez hecho esto, se ha aplicado la Bayesian Gaussian Mixture en el rango completo de radios y metalicidades a los datos correspondientes a los 4 progenitores más masivos, así como a otros 4 cuyas masas se
encuentran en un rango intermedio. De este modo, se han identificado las diferentes sobre-densidades como
múltiples Gaussianas independientes, si bien no se ha establecido aún ningún enlace entre ellas y las galaxias
satélites originales. Por este motivo, a continuación, se ha procedido a intentar relacionar las differentes Gaussianas haciendo uso de las distancias de Mahalanobis y del método de enlace pesado de forma jerárquica. Se
ha llegado con esto a que, si bien no ha sido posible determinar el origen de las sobre-densidades en el espacio
de integrales de movimiento al relaciolarlas entre ellas para progenitores de mayor masa, esta sí es una opción
viable en rangos de masa menores.
Con esto, se llega a que sería necesario desarrollar un método alternativo que permita estudiar los progenitores más pesados, para luego poder estudiar únicamente los de menor masa y aplicar métodos de Machine
Learning de agrupamiento, junto a métodos de enlace, para así identificar los cúmulos restantes. Asimismo,
sería de interés hacer otro tipo de pruebas con simulaciones con datos más realistas, es decir, con una mayor
semejanza con los datos observacionales, así como realizar un estudio más profundo de la información que puede
extraerse de las metalicidades, con el fin de cumplir el objetivo presentado.