Ciência da Informação (Mar 2020)

Modelagem Semântica de Dados Abertos: A Viabilidade de Aplicação de Word Embeddings sobre o Currículo Lattes

  • Felipe de Paula Oliveira,
  • Thiago Magela Rodrigues Dias,
  • Adilson Luiz Pinto

Journal volume & issue
Vol. 48, no. 3

Abstract

Read online

Os currículos cadastrados na Plataforma Lattes do CNPq (Conselho Nacional de Desenvolvimento Científico e Tecnológico), são importantes fontes de dados abertos que possibilitam obter informações sobre formação acadêmica, produção científica, projetos de pesquisa e atuação profissional de um conjunto de indivíduos. O que possibilita a realização de diversos tipos de análises bibliométricas, podendo ser aplicados tanto métodos ou modelos tradicionais, quanto alternativos para a avaliação da ciência. O estudo apresentado, trata de afirmar sobre a viabilidade de aplicação de PLN (Processamento de Linguagem Natural) para a avaliação de similaridade semântica sobre os dados cadastrados no currículo Lattes. Para a realização de análises utilizou-se uma amostra de curículos referentes a doutores e realizado o tratamento em um corpus textual, para a representação semântica vetorial, foi aplicada a ferramenta Word2Vec, sendo possível a realização de inferência dos termos. Como resultados foram apresentados índices de similaridade calculados pelo modelo em palavras contidas em títulos de publicações

Keywords