Tạp chí Khoa học Đại học Cần Thơ (Oct 2013)
NÂNG CAO ĐỘ CHÍNH XÁC PHÂN LOẠI LỚP ÍT MẪU TỪ TẬP DỮ LIỆU MẤT CÂN BẰNG
Abstract
Vấn đề mất cân bằng dữ liệu xảy ra khi trong tập dữ liệu có lớp chứa số mẫu nhiều hơn các lớp khác. Phân loại chính xác cho mẫu thuộc lớp nhỏ trong tập mất cân bằng là khó khăn. Khi tỷ lệ mất cân bằng của tập dữ liệu càng cao thì việc phát hiện được mẫu của lớp nhỏ càng khó. Học với chi phí nhạy cảm là giải pháp hiệu quả để giải quyết vấn đề mất cân bằng. Trong bài báo này, chúng tôi trình bày một hệ thống gọi là hệ thống quyết định với chi phí, hệ thống giúp cải thiện khả năng phân loại chính xác của lớp nhỏ trong tập dữ liệu mất cân bằng, lớp dữ liệu rất được quan tâm. Hệ thống được xây dựng dựa vào kết quả nghiên cứu giải pháp phân loại trên dữ liệu mất cân bằng tiếp cận với chi phí nhạy cảm. Hệ thống được áp dụng vào lĩnh vực chẩn đoán y học, kết quả thực nghiệm cho thấy khả năng phát hiện chính xác bệnh nhân của hệ thống chẩn đoán được cải thiện.