ReCIBE (Oct 2019)
ANÁLISIS DEL DESEMPEÑO DE REDES NEURONALES PROFUNDAS PARA SEGMENTACIÓN SEMÁNTICA EN HARDWARE LIMITADO
Abstract
Segmentación semántica consiste en encontrar objetos previamente definidos en una imagen digital y se aplica en tecnologías como vehículos autónomos, interacción humano-maquina, realidad aumentada, robótica, etc. Los modelos más comunes para llevar a cabo esta forma de segmentación son las redes totalmente convolucionales, ya que reportan los mejores desempeños en la detección de objetos. Sin embargo, la mayor parte de estas redes tienen alto costo computacional y requieren de computadoras costosas, por lo que han surgido recientemente modelos basados en estas redes, pero con baja complejidad en cálculos para que las aplicaciones de segmentación semántica se puedan implementar desde sistemas embebidos. Por lo tanto, para contribuir con este esfuerzo, se presenta en este artículo un análisis detallado las redes Enet, Mobilenet v2, ERFNet y ESPNet v2, las cuales son redes populares en la literatura que se pueden correr desde un sistema embebido. Con base en los resultados, se concluye que los métodos que reemplazan la convolución regular por factorizaciones como la convolución separada en profundidad y convoluciones dilatadas con diversas ramas y el uso de otras estrategias como convoluciones saltadas e interpolaciones articuladas reducen el costo computacional comparando las métricas generadas por cada red como la huella de memoria, la precisión y el tiempo que tarda en segmentar una sola imagen.