Peringkasan Artikel Berbahasa Indonesia Menggunakan TextRank dengan Pembobotan BM25

Yurdha Fadhila Hernawan; Putra Pandu Adikara; Randy Cahya Wihandika

doi:10.25126/jtiik.2022913765

Jurnal Teknologi Informasi dan Ilmu Komputer (Feb 2022)

Peringkasan Artikel Berbahasa Indonesia Menggunakan TextRank dengan Pembobotan BM25

Yurdha Fadhila Hernawan,
Putra Pandu Adikara,
Randy Cahya Wihandika

Affiliations

Yurdha Fadhila Hernawan: Universitas Brawijaya, Malang
Putra Pandu Adikara: Universitas Brawijaya, Malang
Randy Cahya Wihandika: Universitas Brawijaya, Malang

DOI: https://doi.org/10.25126/jtiik.2022913765
Journal volume & issue: Vol. 9, no. 1

Abstract

Read online

Penggunaan internet sebagai sumber informasi telah membawa manusia pada era one click away. Apa pun bisa diakses di mana pun kapan pun, baik secara visual maupun tidak. Namun, tidak semua informasi yang diakses selalu sesuai dengan konteks yang diinginkan. Untuk memudahkan pengguna internet dalam mendapatkan informasi yang ringkas dengan tidak merusak atau menghilangkan informasi penting, maka dibutuhkan suatu peringkasan otomatis. Salah satu cara untuk mendapatkan ringkasan pada sebuah dokumen adalah dengan mencari kumpulan kalimat penting pada dokumen yang dapat merepresentasikan dokumen asli secara keseluruhan. Metode peringkasan tersebut disebut juga dengan peringkasan ekstraktif. Pada penelitian ini, peringkasan ekstraktif dilakukan dengan memeringkatkan setiap kalimat pada sebuah dokumen dan mengambil kalimat dengan peringkat teratas sebagai ringkasan. Metode TextRank yang digunakan pada penelitian ini merepresentasikan dokumen sebagai graf, setiap kalimat dianggap sebagai node dan hubungan antara kalimat (node) merupakan nilai similarity antar kalimat. Fungsi similarity yang digunakan adalah BM25 dengan metode pemeringkatan PageRank. Panjang ringkasan yang dihasilkan sistem disesuaikan dengan besar nilai compression rate yang digunakan. Setelah membandingkan hasil ringkasan yang didapatkan sistem peringkasan otomatis dengan hasil ringkasan yang didapatkan dari expert (pakar) sebanyak 10 dokumen, penelitian ini berhasil dilakukan dengan kualitas ringkasan terbaik didapatkan pada saat penggunaan compression rate sebesar 30% dengan nilai rata-rata precision, recall, dan f-measure secara berturut-turut adalah 0,552; 0,552; dan 0,552. Abstract The use of the internet as a source of information has brought humans to a oneclick era. Anything can be accessed anywhere, visually or not. However, every information accessed is not always match with the context itself. An automatic summarization is needed to help people to get the concise informations without ruin the context and missing the point. One way to get a summarize of the document is to find a collection of important sentences in the document that can represent the original document as a whole. That automatic text summarization method is also called extractive summarize. In this study, extractive summarization is done by checking each sentence in a document and ranking the important sentences. The TextRank method used in this study will represent the document as a graph, each sentence will be considered as a node and the relationship between sentences (nodes) is the value of similarity between sentences. The similarity function used is BM25 with the PageRank as ranking method. The resulting length of the system will be adjusted to the value of the level of compression used. After comparing the summarization result between the automatic system and an expert of 10 documents, this research is successfully carried out with the best quality is obtained when using a compression rate of 30% with an average value of precision, recall, and f-measure is 0.552; 0.552; and 0.552.

Published in Jurnal Teknologi Informasi dan Ilmu Komputer

ISSN: 2355-7699 (Print); 2528-6579 (Online)
Publisher: University of Brawijaya
Country of publisher: Indonesia
LCC subjects: Technology: Technology (General): Industrial engineering. Management engineering: Information technology
Website: http://jtiik.ub.ac.id

About the journal