Tạp chí Khoa học Đại học Cần Thơ (May 2011)
PHÂN LOẠI DỮ LIỆU GIEN VỚI GIẢI THUẬT MÁY HỌC ARCX4-RODT
Abstract
Trong bài viết này, chúng tôi trình bày giải thuật máy học mới ArcX4 của cây quyết định ngẫu nhiên xiên phân (ArcX4-rODT). Giải thuật ArcX4-rODT xây dựng tuần tự tập hợp cây xiên phân ngẫu nhiên, cây xây dựng sau sẽ tập trung lên các mẫu bị phân lớp sai bởi các cây trước, mỗi cây thành viên sử dụng siêu phẳng phân chia dữ liệu hiệu quả tại mỗi nút của cây dựa trên phân tích biệt lập tuyến tính. Việc xây dựng cây xiên phân ngẫu nhiên vì thế tạo cho giải thuật có khả năng làm việc tốt trên dữ liệu có số chiều lớn và nhiễu như dữ liệu gien. Kết quả thử nghiệm trên các tập dữ liệu gien từ site datam.i2r.a-star.edu.sg/datasets/krbd/ cho thấy rằng giải thuật ArcX4-rODT mới do chúng tôi đề xuất phân loại tốt hơn khi so sánh với rừng ngẫu nhiên của cây quyết định C4.5 và máy học véctơ hỗ trợ.