Linguamática (Jul 2023)
Desafios e vantagens do processo de identificação automática do gênero e das profissões das personagens no DIP
Abstract
O desenvolvimento de sistemas para identificação automática de personagens e de algumas de suas características é o objetivo central do projeto Desafio de Identificação de Personagens (DIP) desenvolvido junto à Linguateca. Dentre essas características, trataremos neste artigo da identificação do gênero e das profissões das personagens. Primeiramente, justificaremos a nossa escolha em trabalhar com esses dois dados, apresentando os diferentes caminhos que trilhamos para estabelecer diretrizes para a identificação dos mesmos. A identificação manual do gênero e da profissão é exaustiva e passível de falhas, sendo cada vez mais comum o uso de sistemas computacionais para essa tarefa. A análise das profissões permitiria refletir sobre questões como a definição de profissão, sua frequência em obras brasileiras e portuguesas, e possíveis relações com os gêneros literários. Em seguida, apresentaremos alguns resultados provenientes da leitura distante e da leitura próxima de um grupo de obras. Contrastaremos esses resultados e comentaremos os desafios e as vantagens que encontramos ao longo dessa tarefa e que parecem reforçar a nossa hipótese de preferência por um esforço combinado de sistemas automáticos e interpretação humana na identificação de personagens.
Keywords