Vấn đề mất cân bằng dữ liệu và một số phương pháp xử lý dữ liệu mất cân bằng trong mô hình học sâu

Lê Tống Thanh Hải; Pham Ngọc Giàu

doi:10.22144/ctujos.2024.407

Tạp chí Khoa học Đại học Cần Thơ (Oct 2024)

Vấn đề mất cân bằng dữ liệu và một số phương pháp xử lý dữ liệu mất cân bằng trong mô hình học sâu

Lê Tống Thanh Hải,
Pham Ngọc Giàu

Affiliations

Lê Tống Thanh Hải: Trường Đại học Tiền Giang
Pham Ngọc Giàu: Trường Đại học Tiền Giang

DOI: https://doi.org/10.22144/ctujos.2024.407
Journal volume & issue: Vol. 60, no. 5

Abstract

Read online

Trong bài viết này, vấn đề dữ liệu mất cân bằng, một hiện tượng phổ biến trong các bài toán phân loại nhị phân, khi mà số lượng mẫu của một lớp nhỏ hơn đáng kể so với lớp còn lại được đề cập đến. Nhiều phương pháp xử lý dữ liệu mất cân bằng trong học sâu được so sánh và đánh giá, bên cạnh đó sử dụng bộ dữ liệu Cat-Dog để nghiên cứu tác động của sự mất cân bằng đến quá trình phân loại. Các giải pháp được so sánh bao gồm cải tiến từ ba phương pháp tiếp cận: Data, Model và Loss, nhằm nâng cao hiệu suất dự đoán của các thuật toán máy học. Phương pháp tiếp cận Model qua việc áp dụng Transfer Learning với mô hình Resnet-18 cũng được đề xuất, đã được huấn luyện trước trên bộ dữ liệu ImageNet, cho kết quả F1-score là 95,19% và độ chính xác là 95,20% chỉ sau 10 epochs. Điều này cho thấy hiệu quả vượt trội so với các nghiên cứu trước đây tập trung vào cải thiện Data và Loss.

Dữ liệu mất cân bằng, phân loại nhị phân, tăng mẫu dữ liệu, giảm mẫu dữ liệu

Published in Tạp chí Khoa học Đại học Cần Thơ

ISSN: 1859-2333 (Print); 2815-5599 (Online)
Publisher: Can Tho University Publisher
Country of publisher: Viet Nam
LCC subjects: Science
Website: https://ctujsvn.ctu.edu.vn

About the journal

Abstract

Keywords