Processamento de linguagem natural não supervisionado na identificação de pacientes suspeitos de infecção por COVID-19

Rildo Pinto da Silva; Juliana Tarossi Pollettini; Antonio Pazin Filho

doi:10.1590/0102-311xpt243722

Cadernos de Saúde Pública (Dec 2023)

Processamento de linguagem natural não supervisionado na identificação de pacientes suspeitos de infecção por COVID-19

Rildo Pinto da Silva,
Juliana Tarossi Pollettini,
Antonio Pazin Filho

Affiliations

Rildo Pinto da Silva: ORCiD
Juliana Tarossi Pollettini: ORCiD
Antonio Pazin Filho: ORCiD

DOI: https://doi.org/10.1590/0102-311xpt243722
Journal volume & issue: Vol. 39, no. 11

Abstract

Read online Read online

Os pacientes com síndrome pós-COVID-19 se beneficiam de programas de promoção de saúde e sua rápida identificação é importante para a utilização custo efetiva desses programas. Técnicas tradicionais de identificação têm fraco desempenho, especialmente em pandemias. Portanto, foi realizado um estudo observacional descritivo utilizando 105.008 autorizações prévias pagas por operadora privada de saúde com aplicação de método não supervisionado de processamento de linguagem natural por modelagem de tópicos para identificação de pacientes suspeitos de infecção por COVID-19. Foram gerados seis modelos: três utilizando o algoritmo BERTopic e três modelos Word2Vec. O modelo BERTopic cria automaticamente grupos de doenças. Já no modelo Word2Vec, para definição dos tópicos relacionados a COVID-19, foi necessária análise manual dos 100 primeiros casos de cada tópico. O modelo BERTopic com mais de 1.000 autorizações por tópico sem tratamento de palavras selecionou pacientes mais graves - custo médio por autorizações prévias pagas de BRL 10.206 e gasto total de BRL 20,3 milhões (5,4%) em 1.987 autorizações prévias (1,9%). Teve 70% de acerto comparado à análise humana e 20% de casos com potencial interesse, todos passíveis de análise para inclusão em programa de promoção à saúde. Teve perda importante de casos quando comparado ao modelo tradicional de pesquisa com linguagem estruturada e identificou outros grupos de doenças - ortopédicas, mentais e câncer. O modelo BERTopic serviu como método exploratório a ser utilizado na rotulagem de casos e posterior aplicação em modelos supervisionados. A identificação automática de outras doenças levanta questionamentos éticos sobre o tratamento de informações em saúde por aprendizado de máquina.

Published in Cadernos de Saúde Pública

ISSN: 0102-311X (Print); 1678-4464 (Online)
Publisher: Escola Nacional de Saúde Pública, Fundação Oswaldo Cruz
Country of publisher: Brazil
LCC subjects: Medicine: Public aspects of medicine
Website: http://www.scielo.br/scielo.php?script=sci_serial&pid=0102-311X&lng=en&nrm=iso

About the journal

Abstract

Keywords