Evaluación de plataformas de datos para Big Data y Open Data
Date
2023Abstract
El propósito de este trabajo ha sido la evaluación de herramientas para el tratamiento adecuado de los datos masivos que están a disposición de cualquier persona. De esta manera no solo se está dando un valor añadido a la unificación de herramientas que se encuentran en el ámbito del “Big Data”, sino que también se está potenciando el valor de los datos abiertos (“Open Data”). Se han evaluado diferentes herramientas entre las que destacan Apache Hadoop, Spark, Hive y Airflow, y se ha desarrollado un ejemplo práctico usando estas herramientas y datos abiertos de balances de la entidad Cajasiete. Posteriormente se ha desarrollado un proceso de “machine learning” para predecir futuros valores de estos datos y se ha creado un “dashboard” que sirve a la entidad para visualizar fácilmente los datos. En definitiva, se ha configurado toda una plataforma de datos en la que se puede llevar a cabo cualquier proceso de Big Data. The purpose of this work has been the evaluation of tools for the adequate treatment of massive data that are available to anyone. In this way, not only is added value being given to the unification of tools that are in the field of Big Data, but the value of Open Data is also being promoted. Different tools have been evaluated, among which Apache Hadoop, Spark, Hive and Airflow stand out, and a practical example has been developed using these tools and open data from the Cajasiete entity's balance sheets. Subsequently, a machine learning process has been developed to predict future values of this data and a dashboard has been created that serves the entity to easily visualize the data. In short, an entire data platform has been configured in which any Big Data process can be carried out.