Comparación de modelos de machine learning para la clasificación de imágenes. ViT vs. gMLP
Date
2022Abstract
La producción de hardware más avanzado y potente está correlacionada con el desarrollo
y puesta en práctica de conceptos teorizados anteriormente sobre la Inteligencia Artificial.
Uno de estos conceptos que toma cada vez más importancia en esta era es el Deep
Learning, que busca dotar de la capacidad de aprendizaje a las máquinas con o sin
interacción humana de por medio. Con esta capacidad se puede traducir texto, predecir
valores según los ya conocidos o clasificar imágenes, entre muchas otras aplicaciones.
En este trabajo se comparan dos modelos de Deep Learning que tienen el objetivo de
catalogar imágenes según las características que aprendan los modelos sobre estas.
Los dos modelos se lanzaron el mismo año y son similares respecto a las bases, pero
diferentes en su mecanismo principal. Por eso se busca obtener resultados concluyentes
donde pueda aclararse qué modelo es más efectivo para cada conjunto de datos, yendo
estos desde imágenes sencillas como números del 0 al 9 escritos a mano, hasta conjuntos
más complejos como los sentimientos de una persona por su expresión facial. The most advanced and powerful hardware production is correlated with the development
and implementation of previously theorized concepts about Artificial Intelligence. One of
these concepts that take more and more importance in this era is Deep Learning, which
seeks to provide machines the ability to learn with or without human interaction involved.
With this ability you can translate text, predict values according to the already known
or classify images among many other applications. In this end-of-degree project, we are
going to compare two Deep Learning computer vision models that have the objective of
classifying images according to the attributes that these models learn about every image.
Both models were published in the same year, and they have similar basis, but their main
mechanisms are different. This is why we are looking for conclusive results where it can
be clarified which model is more effective depending on the dataset. Starting from easy
images like numbers from zero to nine written by hand, to more complex datasets such as
a person’s feelings for their facial expression.