RT info:eu-repo/semantics/masterThesis
T1 Improvement of photometric redshift estimations with Machine Learning
A1 Navarro Umpiérrez, Sara Herminia
A2 Máster Universitario en Astrofísica
AB Mapear de forma precisa el Universo es crucial para comprender su estructura, evolución y composición a gran escala.Esto nos permite construir modelos cosmológicos más ajustados a la realidad. Por lo tanto, es de vital importancia contarcon herramientas confiables que nos permitan obtener una gran cantidad de datos de manera eficiente. Un gran avancepara la comunidad científica sería lograr predicciones en redshift fotométricos que compitan en precisión con las medicionesespectroscópicas. Las mediciones espectroscópicas tradicionales requieren un tiempo de observación considerablementemayor y solo pueden realizarse en un número limitado de objetos a la vez. En contraste, el enfoque del redshift fotométrico,photo-𝑧, ofrece la ventaja de un tiempo de observación reducido y la posibilidad de observar simultáneamente una gran cantidadde objetos.En este estudio, nuestro objetivo principal ha sido encontrar métodos más precisos para la estimación de photo-𝑧. Paralograrlo, hemos utilizado un código de aprendizaje automático que emplea un modelo de densidad de mezcla y distribucionesGamma. Este modelo ha sido entrenado exclusivamente utilizando propiedades fotométricas de las galaxias como variablesde entrada, y proporciona estimaciones de photo-𝑧 en forma de funciones de distribución de probabilidad. El entrenamientose ha realizado utilizando valores de 𝑧 espectroscópicos conocidos. Este modelo, denominado 𝛾-MDN, tiene la ventaja deestar restringido a valores reales positivos, lo que lo hace ideal para la predicción de distancias. Además, al ser un modelo dedensidad de mezcla, nos permite obtener funciones de densidad de probabilidad con una abundante información estadística,destacando especialmente su capacidad para abordar problemas con cierta multimodalidad, como la incertidumbre a lo largode la línea de visión en la medición de distancias.El punto más novedoso de este trabajo consiste en buscar formas de mejorar los resultados de 𝛾-MDN mediante la utilizaciónde información de la estructura a gran escala de la red cósmica, sin depender de asumir una cosmología en particular. Paralograr esto, hemos desarrollado el modelo Cluster-GMDN, que realiza un mapeo del cielo en píxeles y utiliza histogramas dedensidad en redshift para generar una función de densidad de probabilidad de grupo del fondo cósmico a lo largo de la línea devisión de la galaxia. Al multiplicar esta función de densidad de probabilidad del fondo con la obtenida a través de 𝛾-MDN, esposible mejorar la precisión en la estimación de photo-𝑧. Aunque en este trabajo se presenta únicamente una primera pruebade este método, ya se observa su gran potencial.Con el fin de demostrar su potencial, estos dos modelos han sido aplicados a los datos de dos destacados proyectos deinvestigación, el Dark Energy Survey (DES) y el catálogo 2MASS Photometric Redshift (2MPZ). La elección del primero sedebe a su relevancia en el estudio de la energía oscura, mientras que el segundo se seleccionó debido a que sus prediccionesfotométricas no incluyen funciones de distribución de probabilidad y es un proyecto colaborativo que se espera que perdure,al menos 10 años más, hasta que ser reemplazado por una iniciativa de mayor.Con DES, hemos probado y validado el funcionamiento de 𝛾-MDN. Inicialmente, el método se diseñó para tener en cuentala forma de las galaxias al realizar predicciones, pero decidimos generalizar el código y utilizar solo las magnitudes g, r, i y z deDES, junto con sus colores, como variables de entrada. Los resultados obtenidos se compararon con el modelo de referenciade DES, conocido como DNF. Observamos que nuestro modelo es bastante competente, igualando o incluso mejorando lacalidad de las predicciones en algunos rangos de redshift. La calidad de las predicciones se evaluó utilizando diversas métricas,como el sesgo en Photo-𝑧, el ancho del percentil 68 del sesgo 𝜎-68, la tasa de valores atípicos y la desviación estándar.Luego, aplicamos 𝛾-MDN para obtener las funciones de distribución de probabilidad (PDFs) de la submuestra de DESllamada MagLim, que no cuenta con mediciones espectroscópicas y se creó con el objetivo de obtener restricciones cosmológicas. A través de este enfoque, obtuvimos una amplia base de datos de aproximadamente 10 millones de galaxias connuestros propios resultados. Utilizando estos datos, creamos un histograma de densidad que el modelo Cluster-GMDN empleapara generar la PDF del fondo cósmico del grupo. Comparando los resultados de Cluster-GMDN con los obtenidos por𝛾-MDN, observamos una mejora considerablemente razonable de los resultados de las métricas en ciertos rangos de redshift,principalmente para reshifts por encima de 𝑧=0.6. En un estudio individual de ciertas galaxias, se pudo apreciar que existenPDFs multimodales en las que un máximo local, que no es la moda, coincide con el valor de la posición verdadera de lagalaxia, y emplendo Cluster-GMDN se ajustaron las probabilidades permitiendo mejorar la precisión de los resultados, dandocomo moda el pico correcto.Además, se exploró el potencial de este modelo como una herramienta para la creación de submuestras más limpias,excluyendo valores atípicos. En este sentido, se obtuvieron resultados sólidos y satisfactorios.Encontramos varios desafíos al evaluar el rendimiento de 𝛾-MDN en la aplicación a 2MPZ, ya que no logramos replicarla muestra de entrenamiento descrita en sus referencias. Sin embargo, podemos concluir que los resultados de nuestro modeloson competitivos en comparación con ANNz, el modelo que utilizan. Además, nuestros resultados aportan PDFs confiables,en lugar de un único valor como estimación de photo-𝑧 como devuelve ANNz. Sin embargo, la implementación del modeloCluster-GMDN no mejoró las estimaciones de photo-𝑧. Creemos que esto puede deberse a que el catálogo de 2MPZ tienelimitaciones en cuanto a los redshifts, lo que implica una menor importancia del agrupamiento ya que hay menos densidad degalaxias en la línea de visión.En conclusión, el modelo Cluster-GMDN presenta resultados muy prometedores y un gran potencial como método parala mejora de estimaciónes de photo-z, a pesar de que en este trabajo solamente se presenta un primer testeo del método yun análisis global de sus resultados. Se ha observado que presenta mejores resultados para muestras de galaxias amplias yextensas en redshift. Sin embargo, es necesario realizar un estudio más exhaustivo del potencial de este modelo, que incluyaanálisis detallados sobre si existen tipos específicos de galaxias que puedan brindar mejores o peores resultados. Explorarestas posibilidades nos permitirá afinar el modelo y comprender mejor su desempeño en diferentes situaciones
YR 2024
FD 2024
LK http://riull.ull.es/xmlui/handle/915/36683
UL http://riull.ull.es/xmlui/handle/915/36683
LA en
DS Repositorio institucional de la Universidad de La Laguna
RD 13-abr-2025