Improvement of photometric redshift estimations with Machine Learning

Navarro Umpiérrez, Sara Herminia

Ver/Abrir

Exportar Citas

Fecha

2024

URI

http://riull.ull.es/xmlui/handle/915/36683

Resumen

Mapear de forma precisa el Universo es crucial para comprender su estructura, evolución y composición a gran escala. Esto nos permite construir modelos cosmológicos más ajustados a la realidad. Por lo tanto, es de vital importancia contar con herramientas confiables que nos permitan obtener una gran cantidad de datos de manera eficiente. Un gran avance para la comunidad científica sería lograr predicciones en redshift fotométricos que compitan en precisión con las mediciones espectroscópicas. Las mediciones espectroscópicas tradicionales requieren un tiempo de observación considerablemente mayor y solo pueden realizarse en un número limitado de objetos a la vez. En contraste, el enfoque del redshift fotométrico, photo-𝑧, ofrece la ventaja de un tiempo de observación reducido y la posibilidad de observar simultáneamente una gran cantidad de objetos. En este estudio, nuestro objetivo principal ha sido encontrar métodos más precisos para la estimación de photo-𝑧. Para lograrlo, hemos utilizado un código de aprendizaje automático que emplea un modelo de densidad de mezcla y distribuciones Gamma. Este modelo ha sido entrenado exclusivamente utilizando propiedades fotométricas de las galaxias como variables de entrada, y proporciona estimaciones de photo-𝑧 en forma de funciones de distribución de probabilidad. El entrenamiento se ha realizado utilizando valores de 𝑧 espectroscópicos conocidos. Este modelo, denominado 𝛾-MDN, tiene la ventaja de estar restringido a valores reales positivos, lo que lo hace ideal para la predicción de distancias. Además, al ser un modelo de densidad de mezcla, nos permite obtener funciones de densidad de probabilidad con una abundante información estadística, destacando especialmente su capacidad para abordar problemas con cierta multimodalidad, como la incertidumbre a lo largo de la línea de visión en la medición de distancias. El punto más novedoso de este trabajo consiste en buscar formas de mejorar los resultados de 𝛾-MDN mediante la utilización de información de la estructura a gran escala de la red cósmica, sin depender de asumir una cosmología en particular. Para lograr esto, hemos desarrollado el modelo Cluster-GMDN, que realiza un mapeo del cielo en píxeles y utiliza histogramas de densidad en redshift para generar una función de densidad de probabilidad de grupo del fondo cósmico a lo largo de la línea de visión de la galaxia. Al multiplicar esta función de densidad de probabilidad del fondo con la obtenida a través de 𝛾-MDN, es posible mejorar la precisión en la estimación de photo-𝑧. Aunque en este trabajo se presenta únicamente una primera prueba de este método, ya se observa su gran potencial. Con el fin de demostrar su potencial, estos dos modelos han sido aplicados a los datos de dos destacados proyectos de investigación, el Dark Energy Survey (DES) y el catálogo 2MASS Photometric Redshift (2MPZ). La elección del primero se debe a su relevancia en el estudio de la energía oscura, mientras que el segundo se seleccionó debido a que sus predicciones fotométricas no incluyen funciones de distribución de probabilidad y es un proyecto colaborativo que se espera que perdure, al menos 10 años más, hasta que ser reemplazado por una iniciativa de mayor. Con DES, hemos probado y validado el funcionamiento de 𝛾-MDN. Inicialmente, el método se diseñó para tener en cuenta la forma de las galaxias al realizar predicciones, pero decidimos generalizar el código y utilizar solo las magnitudes g, r, i y z de DES, junto con sus colores, como variables de entrada. Los resultados obtenidos se compararon con el modelo de referencia de DES, conocido como DNF. Observamos que nuestro modelo es bastante competente, igualando o incluso mejorando la calidad de las predicciones en algunos rangos de redshift. La calidad de las predicciones se evaluó utilizando diversas métricas, como el sesgo en Photo-𝑧, el ancho del percentil 68 del sesgo 𝜎-68, la tasa de valores atípicos y la desviación estándar. Luego, aplicamos 𝛾-MDN para obtener las funciones de distribución de probabilidad (PDFs) de la submuestra de DES llamada MagLim, que no cuenta con mediciones espectroscópicas y se creó con el objetivo de obtener restricciones cosmológicas. A través de este enfoque, obtuvimos una amplia base de datos de aproximadamente 10 millones de galaxias con nuestros propios resultados. Utilizando estos datos, creamos un histograma de densidad que el modelo Cluster-GMDN emplea para generar la PDF del fondo cósmico del grupo. Comparando los resultados de Cluster-GMDN con los obtenidos por 𝛾-MDN, observamos una mejora considerablemente razonable de los resultados de las métricas en ciertos rangos de redshift, principalmente para reshifts por encima de 𝑧=0.6. En un estudio individual de ciertas galaxias, se pudo apreciar que existen PDFs multimodales en las que un máximo local, que no es la moda, coincide con el valor de la posición verdadera de la galaxia, y emplendo Cluster-GMDN se ajustaron las probabilidades permitiendo mejorar la precisión de los resultados, dando como moda el pico correcto. Además, se exploró el potencial de este modelo como una herramienta para la creación de submuestras más limpias, excluyendo valores atípicos. En este sentido, se obtuvieron resultados sólidos y satisfactorios. Encontramos varios desafíos al evaluar el rendimiento de 𝛾-MDN en la aplicación a 2MPZ, ya que no logramos replicar la muestra de entrenamiento descrita en sus referencias. Sin embargo, podemos concluir que los resultados de nuestro modelo son competitivos en comparación con ANNz, el modelo que utilizan. Además, nuestros resultados aportan PDFs confiables, en lugar de un único valor como estimación de photo-𝑧 como devuelve ANNz. Sin embargo, la implementación del modelo Cluster-GMDN no mejoró las estimaciones de photo-𝑧. Creemos que esto puede deberse a que el catálogo de 2MPZ tiene limitaciones en cuanto a los redshifts, lo que implica una menor importancia del agrupamiento ya que hay menos densidad de galaxias en la línea de visión. En conclusión, el modelo Cluster-GMDN presenta resultados muy prometedores y un gran potencial como método para la mejora de estimaciónes de photo-z, a pesar de que en este trabajo solamente se presenta un primer testeo del método y un análisis global de sus resultados. Se ha observado que presenta mejores resultados para muestras de galaxias amplias y extensas en redshift. Sin embargo, es necesario realizar un estudio más exhaustivo del potencial de este modelo, que incluya análisis detallados sobre si existen tipos específicos de galaxias que puedan brindar mejores o peores resultados. Explorar estas posibilidades nos permitirá afinar el modelo y comprender mejor su desempeño en diferentes situaciones

Excepto si se señala otra cosa, la licencia del ítem se describe como info:eu-repo/semantics/openAccess