Affinity Mining of Documents Sets via Network Analysis, Keywords and Summaries

Pavel Brazdil; Luís Trigo; João Cordeiro; Rui Sarmento; Mohammadreza Valizadeh

doi:10.5617/osla.1456

Oslo Studies in Language (Mar 2015)

Affinity Mining of Documents Sets via Network Analysis, Keywords and Summaries

Pavel Brazdil,
Luís Trigo,
João Cordeiro,
Rui Sarmento,
Mohammadreza Valizadeh

Affiliations

Pavel Brazdil
Luís Trigo
João Cordeiro
Rui Sarmento
Mohammadreza Valizadeh

DOI: https://doi.org/10.5617/osla.1456
Journal volume & issue: Vol. 7, no. 1

Abstract

Read online

Encontrar pessoas com interesses semelhantes dentro de um domínio pode fornecer um importante auxílio na gestão de centros de investigação. Como a produção académica é facilmente obtida em bases de dados bibliográficas e académicas, estas podem ser usadas para descobrir as afinidades entre os investigadores que não estejam já evidenciadas pela co-autoria. Este processo de descoberta dá-se com a ajuda de técnicas de análise de texto, na base dos termos utilizados nos respectivos documentos. A afinidade pode ser representada em forma de rede, em que os nós representam os artigos de cada investigador e as ligações representam similaridade entre os diferentes investigadores. Cada nó pode ser caracterizado através de diversas medidas de centralidade na rede e algoritmos de detecção de comunidades permitem identificar grupos com interesses semelhantes. Cada nó é ainda caracterizado por um conjunto de palavras-chave e resumos descobertos automaticamente com a ajuda de técnicas avançadas. Este artigo fornece mais detalhes sobre os métodos adoptados e/ou desenvolvidos, alguns dos quais foram implementados no nosso protótipo. Os métodos descritos são gerais e aplicáveis a muitos domínios diferentes, incluindo documentos que descrevem projetos de I&D, documentos associados a legislação, processos judiciais ou procedimentos médicos. Acreditamos deste modo que este trabalho pode ser útil para um público relativamente amplo.

Published in Oslo Studies in Language

ISSN: 1890-9639 (Online)
Publisher: University of Oslo
Country of publisher: Norway
LCC subjects: Language and Literature: Philology. Linguistics: Language. Linguistic theory. Comparative grammar
Website: https://www.journals.uio.no/index.php/osla/index

About the journal