Topic Modeling for Keyword Extraction: using Natural Language Processing methods for keyword extraction in Portal Min@s

Arnaldo Candido Junior; Célia Magalhães; Helena Caseli; Régis Zangirolami

doi:10.17851/2237-2083.23.3.695-726

Revista de Estudos da Linguagem (Dec 2015)

Topic Modeling for Keyword Extraction: using Natural Language Processing methods for keyword extraction in Portal Min@s

Arnaldo Candido Junior,
Célia Magalhães,
Helena Caseli,
Régis Zangirolami

Affiliations

Arnaldo Candido Junior: Universidade Tecnológica Federal do Paraná
Célia Magalhães: Universidade Federal de Minas Gerais
Helena Caseli: Universidade Federal de São Carlos
Régis Zangirolami: Universidade Federal de São Carlos

DOI: https://doi.org/10.17851/2237-2083.23.3.695-726
Journal volume & issue: Vol. 23, no. 3
pp. 695 – 726

Abstract

Read online

Este artigo tem o objetivo da avaliar a aplicação de dois métodos automáticos eficientes na extração de palavras-chave, usados pelas comunidades da Linguística de Corpus e do Processamento da Língua Natural para gerar palavras-chave de textos literários: o WordSmith Tools e o Latent Dirichlet Allocation (LDA). As duas ferramentas escolhidas para este trabalho têm suas especificidades e técnicas diferentes de extração, o que nos levou a uma análise orientada para a sua performance. Objetivamos entender, então, como cada método funciona e avaliar sua aplicação em textos literários. Para esse fim, usamos análise humana, com conhecimento do campo dos textos usados. O método LDA foi usado para extrair palavras-chave por meio de sua integração com o Portal Min@s: Corpora de Fala e Escrita, um sistema geral de processamento de corpora, concebido para diferentes pesquisas de Linguística de Corpus. Os resultados do experimento confirmam a eficácia do WordSmith Tools e do LDA na extração de palavras-chave de um corpus literário, além de apontar que é necessária a análise humana das listas em um estágio anterior aos experimentos para complementar a lista gerada automaticamente, cruzando os resultados do WordSmith Tools e do LDA. Também indicam que a intuição linguística do analista humano sobre as listas geradas separadamente pelos dois métodos usados neste estudo foi mais favorável ao uso da lista de palavras-chave do WordSmith Tools.

Published in Revista de Estudos da Linguagem

ISSN: 0104-0588 (Print); 2237-2083 (Online)
Publisher: Universidade Federal de Minas Gerais
Country of publisher: Brazil
LCC subjects: Language and Literature: Philology. Linguistics
Website: http://periodicos.letras.ufmg.br/index.php/relin

About the journal

Abstract

Keywords