Tạp chí Khoa học Đại học Cần Thơ (Oct 2013)

NHậN DạNG Ký Tự Số VIếT TAY BằNG GIảI THUậT MáY HọC

  • Đỗ Thanh Nghị,
  • Phạm Nguyên Khang

Journal volume & issue
no. 27

Abstract

Read online

Trong bài viết này, chúng tôi trình bày giải thuật máy học rừng ngẫu nhiên xiên phân (rODT) cho nhận dạng ký tự số viết tay. Chúng tôi đề xuất sử dụng đặc trưng toàn cục (GIST) cho biểu diễn ảnh ký tự số trong không gian có số chiều lớn. Tiếp theo, chúng tôi đề xuất giải thuật học tự động rừng xiên phân ngẫu đa lớp, mỗi cây thành viên sử dụng siêu phẳng phân chia dữ liệu hiệu quả tại mỗi nút của cây dựa trên phân tích biệt lập tuyến tính (LDA). Việc xây dựng cây xiên phân ngẫu nhiên vì thế tạo cho giải thuật có khả năng làm việc tốt trên dữ liệu có số chiều lớn sinh ra từ bước tiền xử lý. Kết quả thử nghiệm trên tập dữ liệu thực MNIST cho thấy rằng giải thuật rODT do chúng tôi đề xuất nhận dạng rất chính xác khi so sánh với các phương pháp nhận dạng hiện nay.

Keywords