Extracción de temas emergentes en microblogs utilizando modelos de temas y discriminación de bitérminos

Minor Quesada Grosso; Édgar Casasola Murillo; Antonio Leoni de León

doi:10.15517/rk.v40i4.30224

Káñina (Aug 2017)

Extracción de temas emergentes en microblogs utilizando modelos de temas y discriminación de bitérminos

Minor Quesada Grosso,
Édgar Casasola Murillo,
Antonio Leoni de León

Affiliations

Minor Quesada Grosso: Universidad de Costa Rica
Édgar Casasola Murillo: Universidad de Costa Rica. Escuela de Ciencias de la Computación, Programa de Posgrado en Computación e Informática y Centro de Investigaciones en Tecnologías de la Información y Comunicación (CITIC).
Antonio Leoni de León: Universidad de Costa Rica.

DOI: https://doi.org/10.15517/rk.v40i4.30224
Journal volume & issue: Vol. 40, no. 4

Abstract

Read online

La minería y explotación de datos contenidos en las redes sociales no solo ha sido foco de múltiples esfuer- zos, sino que a pesar de los recursos y energía invertidos aún queda mucho por hacer dada su complejidad. Concretamente, el contenido de los textos publicados regularmente, en los sitios de microblogs (por ejemplo, en Twitter.com) puede ser utilizado para analizar tendencias. Estas últimas son marcadas por temas emergen- tes que se distinguen de los demás por un súbito y acelerado aumento de popularidad en periodos relativamen- te cortos, de un día o de unas cuantas horas. De este modo, el problema es extraer los temas sobre los cuáles se escribe e identificar cuáles de ellos son emergentes. Una solución reciente, conocida como Bursty Biterm Topic Model (BBTM) es un algoritmo que utiliza coocurrencias de palabras (bitérminos) para la identificación de temas emergentes y cuenta con un buen nivel de resultados en Twitter. Sin embargo, toma en cuenta todas las palabras, aún aquellas que no representan temas emergentes y por lo tanto, son menos útiles para identificar- los. De ahí, que esta investigación busca hacer una exploración inicial de la aplicación de una discriminación de los bitérminos utilizados por BBTM para modelar los temas emergentes.

Published in Káñina

ISSN: 0378-0473 (Print); 2215-2636 (Online)
Publisher: Universidad de Costa Rica
Country of publisher: Costa Rica
LCC subjects: Fine Arts; Language and Literature: Philology. Linguistics; Language and Literature: French literature - Italian literature - Spanish literature - Portuguese literature
Website: https://revistas.ucr.ac.cr/index.php/kanina

About the journal

Abstract

Keywords