Descripción automática de archivos audiovisuales : NeuralTalk, un modelo de video2text aplicado al archivo de RTVE

Bazán Gil, Virginia; Guerrero Gómez-Olmedo, Ricardo

doi:10.1344/bid2018.41.7

BiD: Textos Universitaris de Biblioteconomia i Documentació (Dec 2018)

Descripción automática de archivos audiovisuales : NeuralTalk, un modelo de video2text aplicado al archivo de RTVE

Bazán Gil, Virginia,
Guerrero Gómez-Olmedo, Ricardo

Affiliations

Bazán Gil, Virginia
Guerrero Gómez-Olmedo, Ricardo

DOI: https://doi.org/10.1344/bid2018.41.7
Journal volume & issue: no. 41

Abstract

Read online

Objetivo: determinar la madurez de los sistemas de video-to-text para la descripción automática de imágenes en un archivo de televisión. -- Metodología: se realiza una prueba de concepto mediante un sistema de video-to-text desarrollado ad hoc. La prueba se articuló en tres fases o iteraciones distintas entre junio de 2016 y enero de 2017. En las dos primeras iteraciones el sistema analizó un número determinado de contenidos procedentes del archivo de RTVE, las descripciones se valoraron para establecer la tasa de acierto del sistema o, en otras palabras, cómo de cercana era dicha descripción a la que podía haber suministrado un ser humano. En una tercera fase, y previamente al análisis de los contenidos, se entrenó al sistema utilizando técnicas de aprendizaje profundo con el objetivo de mejorar los resultados. -- Resultados: los resultados obtenidos ponen de manifiesto que se trata de una tecnología prometedora, si bien resulta fundamental profundizar más en los mecanismos que serían necesarios para su puesta en producción en los archivos de televisión. Objective: To assess the deep learning capability of a video captioning model for automated image description in a television archive. -- Methodology: Our proof of concept tested an ad hoc video-captioning model in three iterations between June 2016 and January 2017. In the first and second iterations the model was used to analyse a selection of content from the archives of the Spanish Radio and Television Corporation (RTVE) and the descriptions it generated were evaluated to determine the model’s success rate, i.e., how close it came to providing human-like image descriptions. In the third iteration and before the content was analysed, the model was trained using deep learning techniques to optimise the results. -- Results: The results indicate that the model has potential, although further development will be required to customise its use in television archives.

Published in BiD: Textos Universitaris de Biblioteconomia i Documentació

ISSN: 1575-5886 (Online)
Publisher: Universitat de Barcelona - Facultat d'Informació i Mitjans Audiovisuals
Country of publisher: Spain
LCC subjects: Bibliography. Library science. Information resources; Language and Literature: Philology. Linguistics: Communication. Mass media
Website: https://bid.ub.edu/

About the journal

Abstract

Keywords