Multi-Science Journal (Mar 2018)
TÉCNICAS DE EXTRAÇÃO DE CONHECIMENTO POR MEIO DE DADOS FALTANTES E MINERAÇÃO DE DADOS SOBRE AS VÍTIMAS DO CÉSIO-137: Uso De Imputação Múltipla Para Obtenção De Modelos Acurados.
Abstract
Lidar com dados massivos sem perda ou distorção de resultados requer a aplicação de técnicas aprimoradas de mineração de dados (Witten, Frank, & Hall, 2011). O problema não tratado dos dados faltantes distorce a realidade gerando modelos tendenciosos (Haukoos & Newgard, 2007). Aqui é exposto um ensaio sobre o problema de dados faltantes em pesquisas clínicas mediante técnicas de mineração de dados, métodos estatísticos de regressão linear e múltipla imputação. Foram analisados relatórios de dosimetria citogenética, dos acidentados com o Césio-137 em Goiânia, divididos quanto ao índice de dermatites apresentadas em: Grupo I e Grupo II. O Grupo I, apresentou percentagem de dados faltantes de quase vinte e oito por cento, já o Grupo II, apresentou falta de dados de cerca de sessenta e dois por cento, havendo assim nos dois casos, a degradação da amostra. Para os dois grupos foram aplicados métodos de regressão linear pré- e pós-imputação. O estudo exposto neste trabalho, mostra que a preocupação de pesquisadores, quanto à coleta de dados (Haukoos & Newgard, 2007), é realmente relevante. A imputação múltipla revela-se uma excelente escolha para o tratamento de dados faltantes, culminando na realização de modelos mais acurados, dirimindo deste modo, problemas de degradação da amostra.
Keywords