A PCA and SPCA based procedure to variable selection in agriculture

Juscelino Izidoro de Oliveira Jr; José Carlos Ferreira da Rocha; Alaine Margarete Guimarães; Adriel Ferreira da Fonseca

doi:10.5335/rbca.2015.3727

Revista Brasileira de Computação Aplicada (Apr 2015)

A PCA and SPCA based procedure to variable selection in agriculture

Juscelino Izidoro de Oliveira Jr,
José Carlos Ferreira da Rocha,
Alaine Margarete Guimarães,
Adriel Ferreira da Fonseca

Affiliations

Juscelino Izidoro de Oliveira Jr: Fundação ABC para Assistência e Divulgação Técnica Agropecuária
José Carlos Ferreira da Rocha: Universidade Estadual de Ponta Grosa
Alaine Margarete Guimarães: Universidade Estadual de Ponta Grossa
Adriel Ferreira da Fonseca: Universidade Estadual de Ponta Grossa

DOI: https://doi.org/10.5335/rbca.2015.3727
Journal volume & issue: Vol. 7, no. 1
pp. 30 – 41

Abstract

Read online

A mineração de dados agrícolas, frequentemente, envolve o processamento de bases de dados com poucas observações e alta dimensionalidade. Como a complexidade da amostra cresce com a dimensionalidade dos dados e esses dois fatores podem limitar a confiança nos resultados obtidos ou produzir modelos em que há overfitting. Uma forma de reduzir a dimensionalidade dos dados e a complexidade da amostra é selecionar os atributos que são relevantes para a descrição do fenômeno de interesse. Este trabalho apresenta um procedimento que combina métodos de busca e análise de componentes principais supervisionada e não supervisionada para selecionar variáveis. O procedimento remove as variáveis irrelevantes ou com pouca influência sobre a variação dos dados e avalia o impacto da seleção sobre tarefas de regressão e classificação. Sempre que possível, o número de variáveis selecionadas é aquele que atende aos requerimentos da complexidade da amostra. O procedimento foi testado na seleção de variáveis para indução de modelos lineares multivariados e redes neurais artificiais mediante uma base de dados de agricultura de precisão. O procedimento proposto permite uma solução de custo-benefício entre a redução da dimensionalidade e a acurácia do modelo.

Published in Revista Brasileira de Computação Aplicada

ISSN: 2176-6649 (Online)
Publisher: Universidade de Passo Fundo (UPF)
Country of publisher: Brazil
LCC subjects: Science: Mathematics: Instruments and machines: Electronic computers. Computer science
Website: http://www.upf.br/seer/index.php/rbca

About the journal

Abstract

Keywords