Comparativa entre RESNET-50, VGG-16, Vision Transformer y Swin Transformer para el reconocimiento facial con oclusión de una mascarilla

Brenda Xiomara  Tafur Acenjo; Martin Alexis Tello Pariona; Edwin Jhonatan Escobedo Cárdenas

doi:10.26439/interfases2023.n017.6361

Interfases (Jul 2023)

Comparativa entre RESNET-50, VGG-16, Vision Transformer y Swin Transformer para el reconocimiento facial con oclusión de una mascarilla

Brenda Xiomara Tafur Acenjo,
Martin Alexis Tello Pariona,
Edwin Jhonatan Escobedo Cárdenas

Affiliations

Brenda Xiomara Tafur Acenjo: Universidad de Lima, Lima, Perú
Martin Alexis Tello Pariona: Universidad de Lima, Lima, Perú
Edwin Jhonatan Escobedo Cárdenas: Universidad de Lima, Lima, Perú

DOI: https://doi.org/10.26439/interfases2023.n017.6361
Journal volume & issue: no. 017
pp. 56 – 78

Abstract

Read online

En la búsqueda de soluciones sin contacto físico en espacios cerrados para la verificación de identidad en el contexto de la pandemia por el SARS-CoV-2, el reconocimiento facial ha tomado relevancia. Uno de los retos en este ámbito es la oclusión por mascarilla, ya que oculta más del 50 % del rostro. La presente investigación evaluó cuatro modelos preentrenados por aprendizaje por transferencia: VGG-16, RESNET-50, Vision Transformer (ViT) y Swin Transformer, los cuales se entrenaron en sus capas superiores con un conjunto de datos propio. Para el entrenamiento sin mascarilla, se obtuvo un accuracy de 24 % (RESNET-50), 25 % (VGG-16), 96 % (ViT) y 91 % (Swin). En cambio, con mascarilla se obtuvo un accuracy de 32 % (RESNET-50), 53 % (VGG-16), 87 % (ViT) y 61 % (Swin). Estos porcentajes de testing accuracy indican que las arquitecturas más modernas como los transformers arrojan mejores resultados en el reconocimiento con mascarilla que las CNN (VGG-16 y RESNET-50). El aporte de la investigación recae en la experimentación con dos tipos de arquitecturas: CNN y transformers, así como en la creación del conjunto de datos público que se comparte a la comunidad científica. Este trabajo robustece el estado del arte de la visión computacional en el reconocimiento facial por oclusión de una mascarilla, ya que ilustra con experimentos la variación del accuracy con distintos escenarios y arquitecturas.

Published in Interfases

ISSN: 1993-4912 (Online)
Publisher: Universidad de Lima
Country of publisher: Peru
LCC subjects: Technology: Engineering (General). Civil engineering (General): Systems engineering
Website: https://revistas.ulima.edu.pe/index.php/Interfases/

About the journal

Abstract

Keywords