Avaliando atributos para a classificação de estrutura retórica em resumos científicos

Alessandra Harumi Iriguti; Valéria Delisandra Feltrim

doi:10.21814/lm.11.1.273

Linguamática (Jul 2019)

Avaliando atributos para a classificação de estrutura retórica em resumos científicos

Alessandra Harumi Iriguti,
Valéria Delisandra Feltrim

Affiliations

Alessandra Harumi Iriguti: Universidade Estadual de Maringá
Valéria Delisandra Feltrim: Universidade Estadual de Maringá

DOI: https://doi.org/10.21814/lm.11.1.273
Journal volume & issue: Vol. 11, no. 1

Abstract

Read online

A classificação de estrutura retórica é uma tarefa de PLN na qual se busca identificar os componentes retóricos de um discurso e seus relacionamentos. No caso deste trabalho, buscou-se identificar automaticamente categorias em nível de sentenças que compõem a estrutura retórica de resumos científicos. Especificamente, o objetivo foi avaliar o impacto de diferentes conjuntos de atributos na implementação de classificadores retóricos para resumos científicos escritos em português. Para isso, foram utilizados atributos superficiais (extraídos como valores TF-IDF e selecionados com o teste chi-quadrado), atributos morfossintáticos (implementados pelo classificador AZPort) e atributos extraídos a partir de modelos de word embeddings (Word2Vec, Wang2Vec e GloVe, todos previamente treinados). Tais conjuntos de atributos, bem como as suas combinações, foram usados para o treinamento de classificadores usando os seguintes algoritmos de aprendizado supervisionado: Support Vector Machines, Naive Bayes, K-Nearest Neighbors, Decision Trees e Conditional Random Fields (CRF). Os classificadores foram avaliados por meio de validação cruzada sobre três corpora compostos por resumos de teses e dissertações. O melhor resultado, 94% de F1, foi obtido pelo classificador CRF com as seguintes combinações de atributos: (i) Wang2Vec--Skip-gram de dimensões 100 com os atributos provenientes do AZPort; (ii) Wang2Vec--Skip-gram e GloVe de dimensão 300 com os atributos do AZPort; (iii) TF-IDF, AZPort e embeddings extraídos com os modelos Wang2Vec--Skip-gram de dimensões 100 e 300 e GloVe de dimensão 300. A partir dos resultados obtidos, conclui-se que os atributos provenientes do classificador AZPort foram fundamentais para o bom desempenho do classificador CRF, enquanto que a combinação com word embeddings se mostrou válida para a melhoria dos resultados.

Published in Linguamática

ISSN: 1647-0818 (Online)
Publisher: Universidade do Minho & Universidade de Vigo
Country of publisher: Portugal
LCC subjects: Language and Literature: Philology. Linguistics
Website: http://www.linguamatica.com/index.php/linguamatica/index

About the journal

Abstract

Keywords