Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos

Rafael Oleques Nunes; André Susliz Spritzer; Carla Maria Dal Sasso Freitas; Dennis Giovani Balreira

Linguamática (Jan 2025)

Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos

Rafael Oleques Nunes,
André Susliz Spritzer,
Carla Maria Dal Sasso Freitas,
Dennis Giovani Balreira

Affiliations

Rafael Oleques Nunes: UFRGS
André Susliz Spritzer
Carla Maria Dal Sasso Freitas
Dennis Giovani Balreira

Journal volume & issue: Vol. 16, no. 2

Abstract

Read online

Este trabalho trata do vazamento de dados no treinamento de modelos de Reconhecimento de Entidades Nomeadas (NER) em textos legislativos em português brasileiro, resultante de duplicatas e anotações inconsistentes, o que compromete a avaliação dos modelos. Após corrigir esse vazamento no corpus UlyssesNER-Br, foi realizado um novo benchmark, comparando os resultados com estudos anteriores em um cenário mais confiável. Também foi reavaliada uma abordagem semissupervisionada utilizando autoaprendizado e amostragem ativa. No entanto, ao reutilizar um threshold fixo, escolhido a partir de uma nuvem de valores antes da correção, os resultados foram insatisfatórios. Isso indica que um threshold dinâmico, que se adapte às características dos dados pós-correção, poderá proporcionar uma avaliação mais eficiente e precisa, indicando a necessidade de futuros estudos sobre a escolha de thresholds.

Published in Linguamática

ISSN: 1647-0818 (Online)
Publisher: Universidade do Minho & Universidade de Vigo
Country of publisher: Portugal
LCC subjects: Language and Literature: Philology. Linguistics
Website: http://www.linguamatica.com/index.php/linguamatica/index

About the journal

Abstract

Keywords