Improvement of photometric redshift estimations with Machine Learning
Fecha
2024Resumen
Mapear de forma precisa el Universo es crucial para comprender su estructura, evolución y composición a gran escala.
Esto nos permite construir modelos cosmológicos más ajustados a la realidad. Por lo tanto, es de vital importancia contar
con herramientas confiables que nos permitan obtener una gran cantidad de datos de manera eficiente. Un gran avance
para la comunidad científica sería lograr predicciones en redshift fotométricos que compitan en precisión con las mediciones
espectroscópicas. Las mediciones espectroscópicas tradicionales requieren un tiempo de observación considerablemente
mayor y solo pueden realizarse en un número limitado de objetos a la vez. En contraste, el enfoque del redshift fotométrico,
photo-𝑧, ofrece la ventaja de un tiempo de observación reducido y la posibilidad de observar simultáneamente una gran cantidad
de objetos.
En este estudio, nuestro objetivo principal ha sido encontrar métodos más precisos para la estimación de photo-𝑧. Para
lograrlo, hemos utilizado un código de aprendizaje automático que emplea un modelo de densidad de mezcla y distribuciones
Gamma. Este modelo ha sido entrenado exclusivamente utilizando propiedades fotométricas de las galaxias como variables
de entrada, y proporciona estimaciones de photo-𝑧 en forma de funciones de distribución de probabilidad. El entrenamiento
se ha realizado utilizando valores de 𝑧 espectroscópicos conocidos. Este modelo, denominado 𝛾-MDN, tiene la ventaja de
estar restringido a valores reales positivos, lo que lo hace ideal para la predicción de distancias. Además, al ser un modelo de
densidad de mezcla, nos permite obtener funciones de densidad de probabilidad con una abundante información estadística,
destacando especialmente su capacidad para abordar problemas con cierta multimodalidad, como la incertidumbre a lo largo
de la línea de visión en la medición de distancias.
El punto más novedoso de este trabajo consiste en buscar formas de mejorar los resultados de 𝛾-MDN mediante la utilización
de información de la estructura a gran escala de la red cósmica, sin depender de asumir una cosmología en particular. Para
lograr esto, hemos desarrollado el modelo Cluster-GMDN, que realiza un mapeo del cielo en píxeles y utiliza histogramas de
densidad en redshift para generar una función de densidad de probabilidad de grupo del fondo cósmico a lo largo de la línea de
visión de la galaxia. Al multiplicar esta función de densidad de probabilidad del fondo con la obtenida a través de 𝛾-MDN, es
posible mejorar la precisión en la estimación de photo-𝑧. Aunque en este trabajo se presenta únicamente una primera prueba
de este método, ya se observa su gran potencial.
Con el fin de demostrar su potencial, estos dos modelos han sido aplicados a los datos de dos destacados proyectos de
investigación, el Dark Energy Survey (DES) y el catálogo 2MASS Photometric Redshift (2MPZ). La elección del primero se
debe a su relevancia en el estudio de la energía oscura, mientras que el segundo se seleccionó debido a que sus predicciones
fotométricas no incluyen funciones de distribución de probabilidad y es un proyecto colaborativo que se espera que perdure,
al menos 10 años más, hasta que ser reemplazado por una iniciativa de mayor.
Con DES, hemos probado y validado el funcionamiento de 𝛾-MDN. Inicialmente, el método se diseñó para tener en cuenta
la forma de las galaxias al realizar predicciones, pero decidimos generalizar el código y utilizar solo las magnitudes g, r, i y z de
DES, junto con sus colores, como variables de entrada. Los resultados obtenidos se compararon con el modelo de referencia
de DES, conocido como DNF. Observamos que nuestro modelo es bastante competente, igualando o incluso mejorando la
calidad de las predicciones en algunos rangos de redshift. La calidad de las predicciones se evaluó utilizando diversas métricas,
como el sesgo en Photo-𝑧, el ancho del percentil 68 del sesgo 𝜎-68, la tasa de valores atípicos y la desviación estándar.
Luego, aplicamos 𝛾-MDN para obtener las funciones de distribución de probabilidad (PDFs) de la submuestra de DES
llamada MagLim, que no cuenta con mediciones espectroscópicas y se creó con el objetivo de obtener restricciones cosmológicas. A través de este enfoque, obtuvimos una amplia base de datos de aproximadamente 10 millones de galaxias con
nuestros propios resultados. Utilizando estos datos, creamos un histograma de densidad que el modelo Cluster-GMDN emplea
para generar la PDF del fondo cósmico del grupo. Comparando los resultados de Cluster-GMDN con los obtenidos por
𝛾-MDN, observamos una mejora considerablemente razonable de los resultados de las métricas en ciertos rangos de redshift,
principalmente para reshifts por encima de 𝑧=0.6. En un estudio individual de ciertas galaxias, se pudo apreciar que existen
PDFs multimodales en las que un máximo local, que no es la moda, coincide con el valor de la posición verdadera de la
galaxia, y emplendo Cluster-GMDN se ajustaron las probabilidades permitiendo mejorar la precisión de los resultados, dando
como moda el pico correcto.
Además, se exploró el potencial de este modelo como una herramienta para la creación de submuestras más limpias,
excluyendo valores atípicos. En este sentido, se obtuvieron resultados sólidos y satisfactorios.
Encontramos varios desafíos al evaluar el rendimiento de 𝛾-MDN en la aplicación a 2MPZ, ya que no logramos replicar
la muestra de entrenamiento descrita en sus referencias. Sin embargo, podemos concluir que los resultados de nuestro modelo
son competitivos en comparación con ANNz, el modelo que utilizan. Además, nuestros resultados aportan PDFs confiables,
en lugar de un único valor como estimación de photo-𝑧 como devuelve ANNz. Sin embargo, la implementación del modelo
Cluster-GMDN no mejoró las estimaciones de photo-𝑧. Creemos que esto puede deberse a que el catálogo de 2MPZ tiene
limitaciones en cuanto a los redshifts, lo que implica una menor importancia del agrupamiento ya que hay menos densidad de
galaxias en la línea de visión.
En conclusión, el modelo Cluster-GMDN presenta resultados muy prometedores y un gran potencial como método para
la mejora de estimaciónes de photo-z, a pesar de que en este trabajo solamente se presenta un primer testeo del método y
un análisis global de sus resultados. Se ha observado que presenta mejores resultados para muestras de galaxias amplias y
extensas en redshift. Sin embargo, es necesario realizar un estudio más exhaustivo del potencial de este modelo, que incluya
análisis detallados sobre si existen tipos específicos de galaxias que puedan brindar mejores o peores resultados. Explorar
estas posibilidades nos permitirá afinar el modelo y comprender mejor su desempeño en diferentes situaciones