Tạp chí Khoa học Đại học Cần Thơ (Aug 2016)

Đề xuất mô hình quản lý và trực quan hóa kết quả thống kê văn bản trực tuyến - ứng dụng trong phân tích xu hướng nghiên cứu khoa học tại Trường Đại học Cần Thơ

  • Nguyễn Hùng Dũng,
  • Nguyễn Hoàng Việt,
  • Trương Quốc Định,
  • Việt Trương Xuân,
  • Lương Huy Nhật,
  • Huỳnh Gia Khương

DOI
https://doi.org/10.22144/ctu.jvn.2016.505
Journal volume & issue
no. 45

Abstract

Read online

Mục tiêu của bài viết là đề xuất mô hình quản lý và khai thác hữu hiệu các dữ liệu phong phú, đa dạng đang tồn tại dưới dạng các văn bản, bảng tính của một tổ chức. Bên cạnh đó, chúng tôi cũng đề xuất giải pháp công nghệ cụ thể dựa trên các nền tảng Big Data phổ biến, bao gồm: (1) HDFS (Hadoop Distributed File System) của Hadoop dùng trong quản lý tập tin, (2) Lucene để lập chỉ mục nghịch đảo (Inverted Index) cho văn bản và (3) Apache Solr hỗ trợ cơ chế quản lý chỉ mục nghịch đảo, tìm kiếm toàn văn và một số chức năng tìm kiếm nâng cao. Bài viết cũng trình bày kết quả thực nghiệm, tổng hợp kết quả và trình bày biểu đồ thống kê của việc áp dụng mô hình trong phân tích xu hướng nghiên cứu khoa học tại Trường Đại học Cần Thơ.

Keywords