Finisterra - Revista Portuguesa de Geografia (Dec 2022)
Fatores socioeconómicos e algoritmos de machine learning aplicados à predição de risco de doenças negligenciadas.
Abstract
Analisar a relação entre variáveis socioeconómicas e doenças tropicais negligenciadas pode auxiliar os gestores no desenvolvimento de políticas públicas para a redução de casos. O objetivo deste trabalho foi avaliar, com base em algoritmos de machine learning, quais as variáveis socioeconómicas mais importantes para a classificação de risco de três doenças negligenciadas: hanseníase, leishmaniose tegumentar e dengue. Foram avaliados três algoritmos baseados em árvores de decisão: Random Forest (RF), XGBoost e C5.0. Como área de estudo, delimitaram-se os municípios do Estado de Goiás e o Distrito Federal – Brasil. Para as classes de risco de dengue, tanto o algoritmo RF quanto o XGBoost apresentaram valores de exatidão acima de 0,6. Ambos destacaram como variáveis preditivas mais importantes as condições de baixa renda, alfabetização e raça. No caso das classes de risco de hanseníase, os três algoritmos apresentaram resultados de exatidão acima de 0,6 indicando como importantes as variáveis abastecimento de água, alfabetização, raça e moradia. No caso das classes de risco de leishmaniose tegumentar, os algoritmos apresentaram exatidão inferior a 0,4, inviabilizando a avaliação das possíveis variáveis preditivas ao modelo. Os três algoritmos avaliados apresentaram desempenho preditivo aproximado. No entanto, o RF foi ligeiramente superior. As variáveis socioeconómicas mais importantes para predição das classes de risco de dengue e hanseníase foram similares.