Revista Brasileira de Computação Aplicada (Jul 2018)
Avaliação da performance do algoritmo J48 para construção de modelos baseados em árvores de decisão
Abstract
As árvores de decisão são modelos hierárquicos utilizados em várias áreas do conhecimento por sua capacidade preditiva e de resolução de problemas de maneira simples e objetiva. Entretanto, apresentam algumas limitações relacionadas à sua adequação à base de dados e ao se atentar quanto aos procedimentos para seleção dos parâmetros de crescimento e poda a serem adotados. Desta forma, têm-se como objetivo avaliar e discutir a performance do algoritmo J48 para construção de modelos de tomada de decisão em árvore em base de dados com atributos de diferentes tipos. Para tanto, realizaram-se experimentos em 10 bases de dados disponíveis em repositório internacional, considerando como variantes os métodos de treinamento, teste e poda, aplicados em toda base de dados e com o uso dos métodos Wrapper e CFS (Correlation-based Feature Selection) para seleção de atributos. Identificou-se que na presença de dados contínuos, os únicos modelos que apresentaram boa capacidade preditiva estiveram presentes em situações em que a grande quantidade de exemplos puderam compensar tal deficiência. Os modos de treinamento "validação cruzada" e "divisão por porcentagem" mostraram-se similares em suas predições quando ajustados a 10 folds e 75%, respectivamente. Ademais, a seleção de atributos não foi capaz de gerar melhores predições denotando que tal método de forma isolada não compensa possíveis inadequações nas bases de dados. Pode-se constatar que os resultados referentes à capacidade preditiva dos modelos são fortemente direcionados pelo quantitativo de exemplos pertencentes à base, presença de dados contínuos e de dados com ruído.
Keywords