Perspectivas em Ciência da Informação (Dec 2023)

FRAMEWORK GENÉRICO PARA GERAÇÃO AUTOMÁTICA DE ASSUNTOS E INDEXAÇÃO EM REPOSITÓRIO DIGITAL

  • Jean Carlos Borges Brito,
  • Dalton Lopes Martins

DOI
https://doi.org/10.1590/1981-5344/46629
Journal volume & issue
Vol. 28

Abstract

Read online

RESUMO Este estudo tem por objetivo apresentar um framework genérico para geração automática de assuntos, utilizando técnicas de aprendizagem de máquina na ferramenta Annif. Posteriormente, executar a indexação de dados e metadados em repositório digital, propiciando a recuperação de registros através de busca facetada. Para alcance desse objetivo, aplicou-se o framework na área da Ciência da Informação, construindo um corpus de conhecimento, baseado em metadados de 438 artigos da Base Brasileira de Ciência da Informação (BRAPCI). Utilizou-se o Tesauro Brasileiro de Ciência da Informação (TBCI) como vocabulário controlado. Empregou-se a aplicação “coletor” desenvolvida em phyton para baixar metadados e arquivos completos de Dissertações e Teses de coleções existentes no Repositório Institucional da Universidade de Brasília (RiUnB). Após o processo de treinamento do modelo com Annif, foram executadas geração automática de assuntos e indexados em repositório digital Tainacan. Nesse repositório, foram criadas taxonomias baseadas no vocabulário controlado elaborado. Ao final, foi possível parametrizar buscas facetadas com possibilidade de o usuário inserir etiquetagem e ao mesmo tempo realizar navegação web, selecionando os termos da taxonomia facetada. Conclui-se que o framework genérico proposto pode ser aplicado em qualquer área de conhecimento, auxiliando na geração automática de assuntos, indexação em repositório digital e parametrização de taxonomias facetadas para recuperação da informação.

Keywords