Tạp chí Khoa học Đại học Cần Thơ (Oct 2024)
Vấn đề mất cân bằng dữ liệu và một số phương pháp xử lý dữ liệu mất cân bằng trong mô hình học sâu
Abstract
Trong bài viết này, vấn đề dữ liệu mất cân bằng, một hiện tượng phổ biến trong các bài toán phân loại nhị phân, khi mà số lượng mẫu của một lớp nhỏ hơn đáng kể so với lớp còn lại được đề cập đến. Nhiều phương pháp xử lý dữ liệu mất cân bằng trong học sâu được so sánh và đánh giá, bên cạnh đó sử dụng bộ dữ liệu Cat-Dog để nghiên cứu tác động của sự mất cân bằng đến quá trình phân loại. Các giải pháp được so sánh bao gồm cải tiến từ ba phương pháp tiếp cận: Data, Model và Loss, nhằm nâng cao hiệu suất dự đoán của các thuật toán máy học. Phương pháp tiếp cận Model qua việc áp dụng Transfer Learning với mô hình Resnet-18 cũng được đề xuất, đã được huấn luyện trước trên bộ dữ liệu ImageNet, cho kết quả F1-score là 95,19% và độ chính xác là 95,20% chỉ sau 10 epochs. Điều này cho thấy hiệu quả vượt trội so với các nghiên cứu trước đây tập trung vào cải thiện Data và Loss.
Keywords