Procesamiento de lenguaje natural en información postal

Cabrera Rodríguez, Jorge

dc.contributor.advisor	Sánchez Berriel, Isabel
dc.contributor.advisor	Moreno de Antonio, Luz Marina
dc.contributor.author	Cabrera Rodríguez, Jorge
dc.contributor.other	Grado En Ingeniería Informática
dc.date.accessioned	2023-09-12T21:44:34Z
dc.date.available	2023-09-12T21:44:34Z
dc.date.issued	2023
dc.identifier.uri	http://riull.ull.es/xmlui/handle/915/33992
dc.description.abstract	El objetivo de este trabajo ha sido diseñar e implementar un modelo de coincidencia de direcciones que permita identificar direcciones equivalentes (direcciones escritas de diferente forma que dirigen al mismo lugar geográfico). Para ello, se han investigado técnicas de Procesamiento de Lenguaje Natural (PLN) en conjunto con algoritmos y modelos de aprendizaje automático. Se han implementado tanto técnicas de clasificación como técnicas de agrupamiento para alcanzar un modelo funcional. Se destacan los algoritmos de clasificación “Random Forest”, “Naive Bayes Gaussiano” y “XGBoost”. En el lado del agrupamiento, se utilizó el algoritmo “K-medias”. El paradigma de trabajo ha sido realizar coincidencias binarias tales que, para una dirección dada, se determinen para otras direcciones los siguientes valores: MATCH si la dirección a comparar es equivalente y NO MATCH si la dirección a comparar no es equivalente. Tras múltiples operaciones de revisión y tras múltiples técnicas de corrección de datos, generación de direcciones variadas y sobre-muestreo de direcciones, se ha obtenido un modelo práctico funcional, que demuestra un excelente rendimiento al realizar coincidencia de direcciones.	es
dc.description.abstract	The objective of this work has been to design and implement an address matching model that can identify equivalent addresses (addresses written in different formats that refer to the same geographic location). To achieve this, techniques from Natural Language Processing (NLP) have been investigated in conjunction with machine learning algorithms and models. Both classification techniques and clustering techniques have been implemented to create a functional model. Notable classification algorithms used include "Random Forest," "Gaussian Naive Bayes," and "XGBoost." On the clustering side, the "K-means" algorithm was utilized. The working paradigm has been to perform binary matches, where given a reference address, other addresses are determined to have either a MATCH or NO MATCH value. A MATCH indicates equivalence with the reference address, while a NO MATCH indicates non-equivalence. Through multiple rounds of revision, data correction techniques, generation of diverse addresses, and oversampling of addresses, a practical and functional model has been obtained. It demonstrates excellent performance in address matching tasks.	en
dc.format.mimetype	application/pdf
dc.language.iso	es
dc.rights	Licencia Creative Commons (Reconocimiento-No comercial-Sin obras derivadas 4.0 Internacional)
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/deed.es_ES
dc.title	Procesamiento de lenguaje natural en información postal
dc.type	info:eu-repo/semantics/bachelorThesis
dc.subject.keyword	PLN
dc.subject.keyword	Aprendizaje automático
dc.subject.keyword	dirección
dc.subject.keyword	clasificación
dc.subject.keyword	agrupamiento
dc.subject.keyword	XGBoost
dc.subject.keyword	Random Forest
dc.subject.keyword	Naive Bayes
dc.subject.keyword	Gaussiano

Ficheros en el ítem

Nombre:: Procesamiento de lenguaje natural ...
Tamaño:: 2.078Mb
Formato:: PDF

Ver/Abrir

Este ítem aparece en la(s) siguiente(s) colección(ones)

TFG. Ingeniería Informática

Mostrar el registro sencillo del ítem

Licencia Creative Commons (Reconocimiento-No comercial-Sin obras derivadas 4.0 Internacional)

Excepto si se señala otra cosa, la licencia del ítem se describe como Licencia Creative Commons (Reconocimiento-No comercial-Sin obras derivadas 4.0 Internacional)