Linguamática (Jan 2025)

Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos

  • Rafael Oleques Nunes,
  • André Susliz Spritzer,
  • Carla Maria Dal Sasso Freitas,
  • Dennis Giovani Balreira

Journal volume & issue
Vol. 16, no. 2

Abstract

Read online

Este trabalho trata do vazamento de dados no treinamento de modelos de Reconhecimento de Entidades Nomeadas (NER) em textos legislativos em português brasileiro, resultante de duplicatas e anotações inconsistentes, o que compromete a avaliação dos modelos. Após corrigir esse vazamento no corpus UlyssesNER-Br, foi realizado um novo benchmark, comparando os resultados com estudos anteriores em um cenário mais confiável. Também foi reavaliada uma abordagem semissupervisionada utilizando autoaprendizado e amostragem ativa. No entanto, ao reutilizar um threshold fixo, escolhido a partir de uma nuvem de valores antes da correção, os resultados foram insatisfatórios. Isso indica que um threshold dinâmico, que se adapte às características dos dados pós-correção, poderá proporcionar uma avaliação mais eficiente e precisa, indicando a necessidade de futuros estudos sobre a escolha de thresholds.

Keywords