Un análisis bidimensional de las técnicas de remuestreo para grandes conjuntos de datos desbalanceados

Angélica Guzmán Ponce; J. Salvador Sanchéz; Rosa M. Valdovinos Rosas; J. Raymundo Marcial Romero

Programación Matemática y Software (Feb 2019)

Un análisis bidimensional de las técnicas de remuestreo para grandes conjuntos de datos desbalanceados

Angélica Guzmán Ponce,
J. Salvador Sanchéz,
Rosa M. Valdovinos Rosas,
J. Raymundo Marcial Romero

Affiliations

Angélica Guzmán Ponce: Facultad de Ingeniería, Universidad Autónoma del Estado de México. Cerro de Coatepec S/N, Ciudad Universitaria C.P. 50100. Toluca, Estado de México
J. Salvador Sanchéz: Department of Computer Languages and Systems, Universitat Jaume I, CIF: Q-6250003-H Av. de Vicent Sos Baynat, s/n 12071 Castellón de la Plana, España
Rosa M. Valdovinos Rosas: Facultad de Ingeniería, Universidad Autónoma del Estado de México. Cerro de Coatepec S/N, Ciudad Universitaria C.P. 50100. Toluca, Estado de México
J. Raymundo Marcial Romero: Facultad de Ingeniería, Universidad Autónoma del Estado de México. Cerro de Coatepec S/N, Ciudad Universitaria C.P. 50100. Toluca, Estado de México

Journal volume & issue: Vol. 11, no. 1

Abstract

Read online

Las aplicaciones de Big Data son tema central de la investigación actual en muchos campos debido a la creciente producción de enormes cantidades de datos. Una dificultad importante de los datos, tanto en los problemas de la vida real tradicionales como en los grandes volúmenes de datos, se refiere al desbalance de clases, en el que una clase es muy poco representada en comparación con las otras clases. En este artículo, exploramos el uso de algunos métodos de remuestreo para manejar el desbalance de clase en grandes conjuntos de datos, analizando el tiempo de procesamiento y la precisión de clasificación lograda por tres clasificadores de diferente naturaleza. Los resultados experimentales muestran que los enfoques de sobre muestreo funcionan mejor que las técnicas de bajo muestreo, independientemente del clasificador usado, pero conducen a tiempos de clasificación mucho más altos. Al comparar los métodos de sobre muestreo, se observa que SMOTE supera los algoritmos de sobre muestreo aleatorios; en el caso de un bajo muestreo, el enfoque aleatorio es mejor que la regla condensada del vecino más cercano.

Published in Programación Matemática y Software

ISSN: 2007-3283 (Online)
Publisher: Universidad Autónoma del Estado de Morelos
Country of publisher: Mexico
LCC subjects: Science: Mathematics: Instruments and machines: Electronic computers. Computer science: Computer software
Website: https://progmat.uaem.mx/progmat

About the journal

Abstract

Keywords