Comparación de modelos de machine learning para la clasificación de imágenes. ViT vs. gMLP

González Guanipa, Hernán Daniel

Ver/Abrir

Exportar Citas

Fecha

2022

URI

http://riull.ull.es/xmlui/handle/915/30330

Resumen

La producción de hardware más avanzado y potente está correlacionada con el desarrollo y puesta en práctica de conceptos teorizados anteriormente sobre la Inteligencia Artificial. Uno de estos conceptos que toma cada vez más importancia en esta era es el Deep Learning, que busca dotar de la capacidad de aprendizaje a las máquinas con o sin interacción humana de por medio. Con esta capacidad se puede traducir texto, predecir valores según los ya conocidos o clasificar imágenes, entre muchas otras aplicaciones. En este trabajo se comparan dos modelos de Deep Learning que tienen el objetivo de catalogar imágenes según las características que aprendan los modelos sobre estas. Los dos modelos se lanzaron el mismo año y son similares respecto a las bases, pero diferentes en su mecanismo principal. Por eso se busca obtener resultados concluyentes donde pueda aclararse qué modelo es más efectivo para cada conjunto de datos, yendo estos desde imágenes sencillas como números del 0 al 9 escritos a mano, hasta conjuntos más complejos como los sentimientos de una persona por su expresión facial.

The most advanced and powerful hardware production is correlated with the development and implementation of previously theorized concepts about Artificial Intelligence. One of these concepts that take more and more importance in this era is Deep Learning, which seeks to provide machines the ability to learn with or without human interaction involved. With this ability you can translate text, predict values according to the already known or classify images among many other applications. In this end-of-degree project, we are going to compare two Deep Learning computer vision models that have the objective of classifying images according to the attributes that these models learn about every image. Both models were published in the same year, and they have similar basis, but their main mechanisms are different. This is why we are looking for conclusive results where it can be clarified which model is more effective depending on the dataset. Starting from easy images like numbers from zero to nine written by hand, to more complex datasets such as a person’s feelings for their facial expression.

Licencia Creative Commons (Reconocimiento-No comercial-Sin obras derivadas 4.0 Internacional)

Excepto si se señala otra cosa, la licencia del ítem se describe como Licencia Creative Commons (Reconocimiento-No comercial-Sin obras derivadas 4.0 Internacional)