Análisis de datos con Python en salud y deporte
Author
Hayek Alfonso, ÁlvaroDate
2022Abstract
En este trabajo se ejecutaron una serie de operaciones a trav´es del
lenguaje de programaci´on de Python a una tabla con datos de salud
de atletas femeninas. El objetivo es poner a prueba las capacidades
del lenguaje cuando se trabaja con grandes conjuntos de datos y se
tom´o como base el tema que aborda la tabla: La relaci´on entre la
deficiencia de la vitamina D y la del hierro. Se comenz´o determinando el rango de valores de cada una de las columnas del archivo
(exceptuando las no num´ericas) para obtener una divisi´on en subtablas de datos representando el resultado en un histograma. Posteriormente se tomaron porcentajes de relaci´on entre vitamina D y
hierro ya obtenidos en el art´ıculo correspondiente a la tabla de datos
y se emplearon las estructuras de c´odigo escritas con anterioridad
para computarlos en python y comparar el resultado con el original.
El proyecto finaliz´o mediante la aplicaci´on de procesos de an´alisis
multivariante a un determinado grupo de variables relacionadas con
el estado de vitamina D y hierro para tratar de dividir los datos en
grupos o clusters, establecer modelos de predicci´on en caso de que
se a˜nadan nuevos datos a la tabla y determinar su precisi´on en la
agrupaci´on de los nuevos individuos. In this work, we have computed a series of operations with the programming language of Python to a health data table of female athletes. The main objective is to try the capacities of the language while
working with big data samples and we used the purpose of the table
as a basis: The relationship between vitamin D and iron deficiency.
We started by determining the values range of each file’s column (except from non-numeric ones) to obtain a division into data subtables
while plotting the results in a histogram. After that, we selected the
percentages in link between vitamin D and iron that were already obtained in the article correspondent to the data table and the previous
written coding structures were used to compute them into python
comparing the obtained result with the original percentage. The project ended by applying multivariate analysis processes to a concrete
group of variables related to vitamin D and iron states to achieve to
divide the data into groups or clusters, to establish prediction models
if new data were added and to determine its precision while groupping new individuals.