Procesamiento de lenguaje natural en información postal
Autor
Cabrera Rodríguez, JorgeFecha
2023Resumen
El objetivo de este trabajo ha sido diseñar e implementar un modelo de coincidencia de direcciones que permita identificar direcciones equivalentes (direcciones escritas de diferente forma que dirigen al mismo lugar geográfico). Para ello, se han investigado técnicas de Procesamiento de Lenguaje Natural (PLN) en conjunto con algoritmos y modelos de aprendizaje automático. Se han implementado tanto técnicas de clasificación como técnicas de agrupamiento para alcanzar un modelo funcional. Se destacan los algoritmos de clasificación “Random Forest”, “Naive Bayes Gaussiano” y “XGBoost”. En el lado del agrupamiento, se utilizó el algoritmo “K-medias”. El paradigma de trabajo ha sido realizar coincidencias binarias tales que, para una dirección dada, se determinen para otras direcciones los siguientes valores: MATCH si la dirección a comparar es equivalente y NO MATCH si la dirección a comparar no es equivalente. Tras múltiples operaciones de revisión y tras múltiples técnicas de corrección de datos, generación de direcciones variadas y sobre-muestreo de direcciones, se ha obtenido un modelo práctico funcional, que demuestra un excelente rendimiento al realizar coincidencia de direcciones. The objective of this work has been to design and implement an address matching model that can identify equivalent addresses (addresses written in different formats that refer to the same geographic location). To achieve this, techniques from Natural Language Processing (NLP) have been investigated in conjunction with machine learning algorithms and models. Both classification techniques and clustering techniques have been implemented to create a functional model. Notable classification algorithms used include "Random Forest," "Gaussian Naive Bayes," and "XGBoost." On the clustering side, the "K-means" algorithm was utilized. The working paradigm has been to perform binary matches, where given a reference address, other addresses are determined to have either a MATCH or NO MATCH value. A MATCH indicates equivalence with the reference address, while a NO MATCH indicates non-equivalence. Through multiple rounds of revision, data correction techniques, generation of diverse addresses, and oversampling of addresses, a practical and functional model has been obtained. It demonstrates excellent performance in address matching tasks.