Hematology, Transfusion and Cell Therapy (Oct 2023)
AVALIAÇÃO DA CONFIABILIDADE DO CHATGPT NAS RESPOSTAS SOBRE IMUNO-HEMATOLOGIA
Abstract
Introdução: A incorporação da inteligência artificial (IA) é tema recorrente de discussões e avaliações, especialmente em se tratando dos possíveis ganhos e assertividade e agilidade na detecção de processos patológicos, o que pode contribuir de forma importante com desfechos dos pacientes. Por outro lado, ainda há desconfiança quanto à capacidade destes mecanismos gerarem informações equivocadas, especialmente durante a sua curva de aprendizado. As plataformas de IA surpreendem pela capacidade de interação, especialmente as tecnologias tipo chatbot, como o ChatGPT (uma aplicação que gera textos a partir de um modelo “Transformador Generativo Pré-treinado” – do inglês Generative Pre-trained Transformer – GPT), com respostas eloquentes e coesas, mas que muitas vezes contêm erros, que podem ser imperceptíveis aos olhos de um não especialista em determinado assunto. Neste trabalho, propusemos a avaliação do Software de IA ChatGPT (OpenAI®) em um subtema da área de Hemoterapia, a imuno-hematologia, interagindo através de questões pré-definidas e analisando sua performance. A pesquisa tem por objetivo avaliar os acertos da IA na resposta de questões conceituais e situações-problema da prática hemoterápica. Métodos: Foram elaboradas 60 perguntas sobre o tema de imuno-hematologia por 4 pesquisadoras da área. As perguntas foram classificadas em fáceis, médias e difíceis de acordo com a complexidade da resposta esperada. As perguntas fáceis são geralmente conceituais; as médias e difíceis exigem da tecnologia associação de informações. As perguntas foram feitas em português e inglês para comparar a performance do Chat-GPT quando utilizando as perguntas em bases de dados diferentes. Foi elaborado um gabarito baseado em palavras-chave esperadas, utilizando-se como bibliografia livros-texto consagrados e artigos científicos. Todas as perguntas foram feitas de uma conta única, sem interações prévias, apenas utilizada para este fim, por acesso gratuito. Foram realizadas utilizando a mesma versão do programa, a fim de evitar respostas diferentes por atualização. Após a atualização da versão do programa, todas as perguntas foram refeitas a partir da mesma conta (onde não houve interações acerca das respostas) para avaliação das mudanças entre versões. A resposta foi considerada correta quando continha os elementos principais e não trazia dados falsos/errados; foi considerada errada se fugia do tema, se respondia de forma inadequada ou, ainda, se margeava o tema, mas trazia informação falsa. Resultados: A performance do ChatGPT foi considerada boa, com níveis de acerto maiores que 60% em ambos os idiomas. Foram observadas variações nos percentuais quanto aos níveis de complexidade das perguntas e houve erros qualitativamente diferentes em cada idioma. Não houve diferença no percentual de acertos com a mudança da versão. Discussão: A análise dos erros é interessante devido à possibilidade da inserção de informações (“alucinação”) pelo programa, tema tratado com preocupação, visto que por serem gerados textos coesos, alguém não especialista pode facilmente acreditar numa informação equivocada. Consideramos a ferramenta muito útil e interessante, mas há ainda necessidade indiscutível de revisão das informações por especialista. Conclusão: A IA apresentou um percentual de acertos maior que 60% em questões de imuno-hematologia.