An Adaptive Safe-Region Diversity Oversampling Algorithm for Imbalanced Classification

Liangliang Tao; Huixian Li; Faqiang Wang; Maomao Liu; Zhao Tang; Qingya Wang

doi:10.1109/ACCESS.2024.3396155

IEEE Access (Jan 2024)

An Adaptive Safe-Region Diversity Oversampling Algorithm for Imbalanced Classification

Liangliang Tao,
Huixian Li,
Faqiang Wang,
Maomao Liu,
Zhao Tang,
Qingya Wang

Affiliations

Liangliang Tao: ORCiD; College of Information Engineering, Jiujiang Vocational and Technical College, Jiujiang, China
Huixian Li: ORCiD; College of Information Engineering, Jiujiang Vocational and Technical College, Jiujiang, China
Faqiang Wang: ORCiD; College of Information Engineering, Jiujiang Vocational and Technical College, Jiujiang, China
Maomao Liu: ORCiD; College of Information Engineering, Jiujiang Vocational and Technical College, Jiujiang, China
Zhao Tang: ORCiD; College of Information Engineering, Jiujiang Vocational and Technical College, Jiujiang, China
Qingya Wang: ORCiD; College of Information Engineering, Jiujiang Vocational and Technical College, Jiujiang, China

DOI: https://doi.org/10.1109/ACCESS.2024.3396155
Journal volume & issue: Vol. 12
pp. 63713 – 63724

Abstract

Read online

The challenge of imbalanced data classification stems from the uneven distribution of data across classes, which is a formidable obstacle for traditional classifiers. Although numerous methods have been proposed to address this problem, it is widely recognized that the artificial generation of instances through oversampling methods is a more effective and versatile strategy for balancing the class distribution. We identify that existing oversampling methods are susceptible to generating unnecessary and noisy instances in complex imbalanced scenarios. In light of this, a novel approach called Adaptive Safe-Region Diversity Oversampling (ASRDO) is introduced to tackle difficulties in imbalanced learning. ASRDO starts by calculating the distance from each minority class instance to its nearest majority class instances. Utilizing this distance as a radius, it defines a safe hyperspherical sampling region for each minority instance. The algorithm then assigns weights to minority instances based on the density within their respective sampling regions and the average distance to k nearest majority instances. Finally, It randomly selects two instances from the k nearest minority instances, generates a new direction vector by linear combination, and synthesizes minority instances along this direction vector within the sampling region. Experimental results show a significant performance improvement of the proposed method compared to prevalent oversampling methods on 32 public datasets. A Python implementation of ASRDO is provided for reference.

Published in IEEE Access

ISSN: 2169-3536 (Online)
Publisher: IEEE
Country of publisher: United States
LCC subjects: Technology: Electrical engineering. Electronics. Nuclear engineering
Website: https://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=6287639

About the journal

Abstract

Keywords