Procesamiento de lenguaje natural sobre textos antiguos
Author
Delgado López, SergioDate
2021Abstract
El presente trabajo se ha orientado a desarrollar una herramienta que mediante el
uso de procesamiento de lenguaje natural, analice y textos del siglo XV y XVI en formato
PDF. De forma automática se obtienen las entidades nombradas y relaciones entre ellas
para almacenarlas en una base de datos orientada a grafos que facilite el posterior análisis
de relaciones entre propietarios y lugares en la isla de Tenerife en la época de estudio.
Para la implementación del proyecto se ha optado por tecnologías tales como el lenguaje
de programación Python dentro del entorno de programación colaborativo de Google
Colab (cuadernos Júpiter), librerías de Python para el procesamiento de lenguaje como
NLTK, y más herramientas que se han usado para conseguir la meta del trabajo, las cuales
se verán en profundidad a lo largo de este documento. The present work has been oriented to develop a tool that by means of the use of
natural language processing, analyzes and texts of the XV and XVI centuries in PDF
format. The named entities and relationships between them are automatically obtained to
store them in a graph-oriented database that facilitates the subsequent analysis of
relationships between owners and places on the island of Tenerife at the time of study.
For the implementation of the project, we have opted for technologies such as the Python
programming language within the collaborative programming environment of Google
Colab (Jupiter notebooks), Python libraries for language processing as NLTK, and more
tools that have been used to achieve the goal of the work, which will be seen in depth
throughout this document.