Revista Brasileira de Computação Aplicada (Jul 2018)

Avaliação da performance do algoritmo J48 para construção de modelos baseados em árvores de decisão

  • Elamara Marama de Araujo Vieira,
  • Nívea Trindade de A. T. Neves,
  • Ana Carolina C. de Oliveira,
  • Ronei Marcos de Moraes,
  • João Agnaldo do Nascimento

DOI
https://doi.org/10.5335/rbca.v10i2.8078
Journal volume & issue
Vol. 10, no. 2
pp. 80 – 90

Abstract

Read online

As árvores de decisão são modelos hierárquicos utilizados em várias áreas do conhecimento por sua capacidade preditiva e de resolução de problemas de maneira simples e objetiva. Entretanto, apresentam algumas limitações relacionadas à sua adequação à base de dados e ao se atentar quanto aos procedimentos para seleção dos parâmetros de crescimento e poda a serem adotados. Desta forma, têm-se como objetivo avaliar e discutir a performance do algoritmo J48 para construção de modelos de tomada de decisão em árvore em base de dados com atributos de diferentes tipos. Para tanto, realizaram-se experimentos em 10 bases de dados disponíveis em repositório internacional, considerando como variantes os métodos de treinamento, teste e poda, aplicados em toda base de dados e com o uso dos métodos Wrapper e CFS (Correlation-based Feature Selection) para seleção de atributos. Identificou-se que na presença de dados contínuos, os únicos modelos que apresentaram boa capacidade preditiva estiveram presentes em situações em que a grande quantidade de exemplos puderam compensar tal deficiência. Os modos de treinamento "validação cruzada" e "divisão por porcentagem" mostraram-se similares em suas predições quando ajustados a 10 folds e 75%, respectivamente. Ademais, a seleção de atributos não foi capaz de gerar melhores predições denotando que tal método de forma isolada não compensa possíveis inadequações nas bases de dados. Pode-se constatar que os resultados referentes à capacidade preditiva dos modelos são fortemente direcionados pelo quantitativo de exemplos pertencentes à base, presença de dados contínuos e de dados com ruído.

Keywords