Oslo Studies in Language (Mar 2015)

Affinity Mining of Documents Sets via Network Analysis, Keywords and Summaries

  • Pavel Brazdil,
  • Luís Trigo,
  • João Cordeiro,
  • Rui Sarmento,
  • Mohammadreza Valizadeh

DOI
https://doi.org/10.5617/osla.1456
Journal volume & issue
Vol. 7, no. 1

Abstract

Read online

Encontrar pessoas com interesses semelhantes dentro de um domínio pode fornecer um importante auxílio na gestão de centros de investigação. Como a produção académica é facilmente obtida em bases de dados bibliográficas e académicas, estas podem ser usadas para descobrir as afinidades entre os investigadores que não estejam já evidenciadas pela co-autoria. Este processo de descoberta dá-se com a ajuda de técnicas de análise de texto, na base dos termos utilizados nos respectivos documentos. A afinidade pode ser representada em forma de rede, em que os nós representam os artigos de cada investigador e as ligações representam similaridade entre os diferentes investigadores. Cada nó pode ser caracterizado através de diversas medidas de centralidade na rede e algoritmos de detecção de comunidades permitem identificar grupos com interesses semelhantes. Cada nó é ainda caracterizado por um conjunto de palavras-chave e resumos descobertos automaticamente com a ajuda de técnicas avançadas. Este artigo fornece mais detalhes sobre os métodos adoptados e/ou desenvolvidos, alguns dos quais foram implementados no nosso protótipo. Os métodos descritos são gerais e aplicáveis a muitos domínios diferentes, incluindo documentos que descrevem projetos de I&D, documentos associados a legislação, processos judiciais ou procedimentos médicos. Acreditamos deste modo que este trabalho pode ser útil para um público relativamente amplo.