Revista Brasileira de Meteorologia (Dec 2009)

Vedalogic: um método de Verificação de Dados Climatológicos Apoiado em Modelos Minerados Vedalogic: a Method of Climatologic Data Verification based on Data Mining Models

  • Henrique Gonçalves Salvador,
  • Adilson Marques Da Cunha,
  • Cleber Souza Corrêa

DOI
https://doi.org/10.1590/S0102-77862009000400007
Journal volume & issue
Vol. 24, no. 4
pp. 448 – 460

Abstract

Read online

Neste artigo, apresenta-se um Método de Verificação de Dados Climatológicos Apoiado em Modelos Minerados - VEDALOGIC para o Instituto de Controle do Espaço Aéreo Brasileiro (ICEA). O VEDALOGIC consiste de uma verificação de dados, utilizando-se de modelos criados com algoritmos de Mineração de Dados. O Método utiliza modelos de clustering, gerados a partir de uma série histórica, que propiciam a identificação de grupos homogêneos em uma Base de Dados Climatológicos (BDC). A partir desses modelos, torna-se possível a detecção de inconformidades nos dados, denominadas pontos estranhos (outliers). Após a detecção de um outlier, este é classificado/predito, de acordo com o modelo de árvore de decisão, gerado também a partir de uma série histórica. O valor encontrado com base na árvore de decisão é adotado como sugestão para a correção do outlier, contribuindo com a consistência dos dados no BDC. Neste artigo, utilizam-se os seguintes algoritmos: Expectation-Maximization (EM) e K-means para clustering; e REPTree e M5P para classificação/predição. Para a verificação da eficiência do VEDALOGIC, inseriram-se, artificialmente, dados ruidosos em um conjunto de dados, os quais foram todos detectados pelo VEDALOGIC, que sugeriu valores para correção com uma precisão média superior a 98%.This work presents the VEDALOGIC - Method for Climatologic Data Verification - based on Data Mining Models, to be used by the "Instituto de Controle do Espaço Aéreo Brasileiro" (ICEA). The VEDALOGIC method consists of a data verification using Data Mining algorithm models. The method uses clustering models generated from a historical series that provide the identification of homogeneous groups in the Climatologic Data Base (CDB). This method, based on clustering models, detects unconformities, named outliers. Detected outliers are classified/predicted according to the decision tree models which are also built from historic data. The found value based on the decision tree model is used as a suggestion to correct an outlier, contributing to increase the CDB data consistence. In this study, the Expectation-Maximization (EM) and the K-means algorithms were used to generate clustering models, and the REPTree and the M5P algorithms were used to generate decision (classification/prediction) tree models. To verify the efficiency of the proposed method, some noisy data were artificially inserted into CDB. After applying the VEDALOGIC method, all inserted noisy data were detected and the adjustments have an average precision above 98%.

Keywords