Mostrar el registro sencillo del ítem

dc.contributor.advisorSánchez Berriel, Isabel 
dc.contributor.advisorMoreno de Antonio, Luz Marina
dc.contributor.authorCabrera Rodríguez, Jorge
dc.contributor.otherGrado En Ingeniería Informática
dc.date.accessioned2023-09-12T21:44:34Z
dc.date.available2023-09-12T21:44:34Z
dc.date.issued2023
dc.identifier.urihttp://riull.ull.es/xmlui/handle/915/33992
dc.description.abstractEl objetivo de este trabajo ha sido diseñar e implementar un modelo de coincidencia de direcciones que permita identificar direcciones equivalentes (direcciones escritas de diferente forma que dirigen al mismo lugar geográfico). Para ello, se han investigado técnicas de Procesamiento de Lenguaje Natural (PLN) en conjunto con algoritmos y modelos de aprendizaje automático. Se han implementado tanto técnicas de clasificación como técnicas de agrupamiento para alcanzar un modelo funcional. Se destacan los algoritmos de clasificación “Random Forest”, “Naive Bayes Gaussiano” y “XGBoost”. En el lado del agrupamiento, se utilizó el algoritmo “K-medias”. El paradigma de trabajo ha sido realizar coincidencias binarias tales que, para una dirección dada, se determinen para otras direcciones los siguientes valores: MATCH si la dirección a comparar es equivalente y NO MATCH si la dirección a comparar no es equivalente. Tras múltiples operaciones de revisión y tras múltiples técnicas de corrección de datos, generación de direcciones variadas y sobre-muestreo de direcciones, se ha obtenido un modelo práctico funcional, que demuestra un excelente rendimiento al realizar coincidencia de direcciones.es
dc.description.abstractThe objective of this work has been to design and implement an address matching model that can identify equivalent addresses (addresses written in different formats that refer to the same geographic location). To achieve this, techniques from Natural Language Processing (NLP) have been investigated in conjunction with machine learning algorithms and models. Both classification techniques and clustering techniques have been implemented to create a functional model. Notable classification algorithms used include "Random Forest," "Gaussian Naive Bayes," and "XGBoost." On the clustering side, the "K-means" algorithm was utilized. The working paradigm has been to perform binary matches, where given a reference address, other addresses are determined to have either a MATCH or NO MATCH value. A MATCH indicates equivalence with the reference address, while a NO MATCH indicates non-equivalence. Through multiple rounds of revision, data correction techniques, generation of diverse addresses, and oversampling of addresses, a practical and functional model has been obtained. It demonstrates excellent performance in address matching tasks.en
dc.format.mimetypeapplication/pdf
dc.language.isoes
dc.rightsLicencia Creative Commons (Reconocimiento-No comercial-Sin obras derivadas 4.0 Internacional)
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/deed.es_ES
dc.titleProcesamiento de lenguaje natural en información postal
dc.typeinfo:eu-repo/semantics/bachelorThesis
dc.subject.keywordPLN
dc.subject.keywordAprendizaje automático
dc.subject.keyworddirección
dc.subject.keywordclasificación
dc.subject.keywordagrupamiento
dc.subject.keywordXGBoost
dc.subject.keywordRandom Forest
dc.subject.keywordNaive Bayes
dc.subject.keywordGaussiano


Ficheros en el ítem

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Licencia Creative Commons (Reconocimiento-No comercial-Sin obras derivadas 4.0 Internacional)
Excepto si se señala otra cosa, la licencia del ítem se describe como Licencia Creative Commons (Reconocimiento-No comercial-Sin obras derivadas 4.0 Internacional)