Una herramienta para el análisis preliminar de datos y el aprendizaje automático
Fecha
2021Resumen
Dentro del análisis y representación de datos hay una amplia gama de herramientas
disponibles, esto se debe a la importancia que ha cobrado en los últimos años la
posibilidad de extraer información de los datos. Los procesos de digitalización en
empresas y sector público así como la generación de datos desde múltiples fuentes, ha
permitido producir ingentes cantidades de datos que requieren de las herramientas
adecuadas si se desea extraer la información asociada.
Este proyecto plantea la aproximación al tratamiento de los datos mediante el
desarrollo de un framework que permite una iniciación sencilla y automática al análisis
de datos y a la generación de modelos de aprendizaje automático a usuarios no
necesariamente especializados. El framework proporciona facilidades para el
tratamiento preliminar de los datos y para la generación de modelos con los que poder
realizar estimaciones .
El proyecto ha sido desarrollado empleando el lenguaje de programación Python,
debido a la amplitud de librerías con las que cuenta este lenguaje. Para mejorar la calidad
del código y agilizar el diseño se han empleado los patrones de diseño, en concreto el
patrón de comportamiento estrategia. Esto facilita la implementación de nuevas
representaciones o métodos para el aprendizaje automático, creando una herramienta
flexible y fácilmente extensible. Within the analysis and representation of data there is a wide range of tools available,
this is due to the importance that the possibility of extracting information from data has
gained in recent years. The digitization processes in companies and the public sector, as
well as the generation of data from multiple sources, have made it possible to produce
huge amounts of data that require the appropriate tools if the associated information is to
be extracted.
This project proposes the approach to data processing through the development of a
framework that allows a simple and automatic initiation to data analysis and the generation
of machine learning models to users who are not necessarily specialized. The framework
provides facilities for the preliminary treatment of data and for the generation of models
with which to make estimates.
The project has been developed using the Python programming language, due to the
wide range of libraries available in this language. To improve the quality of the code and
speed up the design, design patterns have been used, specifically the strategy behavior
pattern. This facilitates the implementation of new representations or methods for machine
learning, creating a flexible and easily extensible tool.