RT info:eu-repo/semantics/bachelorThesis T1 Procesamiento de lenguaje natural en información postal A1 Cabrera Rodríguez, Jorge A2 Grado En Ingeniería Informática K1 PLN K1 Aprendizaje automático K1 dirección K1 clasificación K1 agrupamiento K1 XGBoost K1 Random Forest K1 Naive Bayes K1 Gaussiano AB El objetivo de este trabajo ha sido diseñar e implementar un modelo de coincidencia de direcciones que permita identificar direcciones equivalentes (direcciones escritas de diferente forma que dirigen al mismo lugar geográfico). Para ello, se han investigado técnicas de Procesamiento de Lenguaje Natural (PLN) en conjunto con algoritmos y modelos de aprendizaje automático. Se han implementado tanto técnicas de clasificación como técnicas de agrupamiento para alcanzar un modelo funcional. Se destacan los algoritmos de clasificación “Random Forest”, “Naive Bayes Gaussiano” y “XGBoost”. En el lado del agrupamiento, se utilizó el algoritmo “K-medias”. El paradigma de trabajo ha sido realizar coincidencias binarias tales que, para una dirección dada, se determinen para otras direcciones los siguientes valores: MATCH si la dirección a comparar es equivalente y NO MATCH si la dirección a comparar no es equivalente. Tras múltiples operaciones de revisión y tras múltiples técnicas de corrección de datos, generación de direcciones variadas y sobre-muestreo de direcciones, se ha obtenido un modelo práctico funcional, que demuestra un excelente rendimiento al realizar coincidencia de direcciones. YR 2023 FD 2023 LK http://riull.ull.es/xmlui/handle/915/33992 UL http://riull.ull.es/xmlui/handle/915/33992 LA es DS Repositorio institucional de la Universidad de La Laguna RD 07-ago-2024