Del data-driven al data-feeling: análisis de sentimiento en tiempo real de mensajes en español sobre divulgación científica usando técnicas de aprendizaje automático

Patricia Sánchez-Holgado; Manuel Martín-Merino Acera; David Blanco Herrero

doi:10.12804/revistas.urosario.edu.co/disertaciones/a.7691

Disertaciones (Jan 2020)

Del data-driven al data-feeling: análisis de sentimiento en tiempo real de mensajes en español sobre divulgación científica usando técnicas de aprendizaje automático

Patricia Sánchez-Holgado,
Manuel Martín-Merino Acera,
David Blanco Herrero

Affiliations

Patricia Sánchez-Holgado: Universidad de Salamanca. España
Manuel Martín-Merino Acera: Universidad Pontificia de Salamanca (UPSA) España
David Blanco Herrero: Universidad de Salamanca. España

DOI: https://doi.org/10.12804/revistas.urosario.edu.co/disertaciones/a.7691
Journal volume & issue: Vol. 13, no. 1

Abstract

Read online

Los cambios producidos en los últimos años en cuanto a modelos de comunicación social han llevado a todos los sectores a adaptarse a los nuevos medios para alcanzar a su público. La comunicación de la ciencia no es una excepción. La manera en que se distribuyen contenidos sobre ciencia está cambiando debido a la presencia creciente de tecnologías, y la red social Twitter se ha convertido en un importante aliado debido a su gran volumen de usuarios. En el presente trabajo, se utilizan técnicas de aprendizaje automático para desarrollar un clasificador —que funciona en tiempo real— de sentimiento relacionados con mensajes publicados en Twitter. Para ello, se descargaron 200 000 tweets destinados a construir un corpus de entrenamiento limpio y procesado de 10 000 textos etiquetados, la mitad positivos y la mitad negativos, sobre ciencia en español. El corpus permite entrenar el modelo de aprendizaje automático y construir un prototipo OpScience, capaz de determinar el sentimiento de mensajes publicados en Twitter en tiempo real. Los resultados relacionados con la exactitud del clasificador corresponden al 72 %. Estos resultados pueden ayudar a darle mayor valor a temas de la comunicación científica en un espacio de debate social y predecir intereses o tendencias futuras, como se pudo comprobar en una prueba en enero de 2019.

Published in Disertaciones

ISSN: 1856-9536 (Online)
Publisher: Universidad del Rosario; Universidad de los Andes de Venezuela; Universidad Complutense de Madrid
Country of publisher: Colombia
LCC subjects: Language and Literature: Philology. Linguistics: Communication. Mass media; Social Sciences
Website: http://revistas.urosario.edu.co/index.php/disertaciones/index

About the journal

Abstract

Keywords