Jurnal Informatika (Oct 2022)
Perbandingan Algoritma Support Vector Machine dan K-Nearest Neighbor untuk Memprediksi Struktur Sekunder Protein
Abstract
Pendekatan biologi komputasi telah maju secara eksponensial dalam prediksi struktur sekunder protein yang sangat penting untuk industri farmasi. Ekstraksi fitur protein di dalam laboratorium memiliki informasi yang cukup untuk prediksi struktur sekunder protein yang digunakan dalam studi bioinformatika. Memprediksi struktur sekunder protein merupakan suatu permasalahan yang terdapat dalam bidang Bioinformatika. Terdapat beberapa metode yang telah diterapkan dengan tingkat akurasi yang dihasilkan berbeda-beda. Penelitian ini bertujuan untuk membandingkan model prediksi Support Vector Machine dengan K-Nearest Neighbor dalam memprediksi struktur sekunder protein. Dalam penelitian ini, model Support Vector Machine dan K-Nearest Neighbor disajikan dalam dataset RS126 yang terdiri dari 126 data protein dan memiliki panjang urutan protein rata-rata 185 sekuens Data RS126 juga terdiri atas 32% alpha helix, 21% beta, dan 47% coil. Masing-masing model prediksi pada penelitian ini diberikan nilai lebar sliding window sebesar 15. Nilai K = 5, K=10, dan K= 15 untuk model prediksi KNN serta Nilai C = 1, Gamma = 0,1 dan Kernel Radial Basis Function untuk model prediksi SVM. Penggunaan model Support Vector Machine dan K-Nearest Neighbor digunakan untuk memperoleh hasil yang relavan serta akurat dalam prediksi struktur sekunder. Beberapa prinsip yang diusulkan memiliki klarifikasi biologis yang menarik dan relevan. Hasil yang diperoleh menegaskan bahwa keberadaan asam amino tertentu dalam urutan protein meningkatkan stabilitas untuk prakiraan stuktur sekunder protein. Dalam penelitian ini algoritma KNN memiliki performa yang lebih baik dalam memprediksi struktur sekunder protein dibandingkan dengan algoritm SVM. Computational biology approaches have advanced exponentially in the prediction of the secondary structure of proteins of great importance to the pharmaceutical industry. The extraction of protein features in the laboratory has sufficient information for the prediction of the secondary structure of proteins used in bioinformatics studies. Predicting the secondary structure of proteins is a problem in the field of bioinformatics. There are several methods that have been applied with different levels of accuracy produced. This study aims to compare the Support Vector Machine prediction model with K-Nearest Neighbor in predicting the secondary structure of proteins. In this study, the Support Vector Machine and K-Nearest Neighbor models are presented in the RS126 dataset which consists of 126 protein data with an average protein sequence length of 185 sequences. RS126 data also consists of 32% alpha helix (H) , 21% beta (E), and 47% coil (C). Each prediction model in this study is given a sliding window width value of 15. The value of K = 5, K = 10, and K = 15 for the KNN prediction model and the value of C = 1, Gamma = 0.1 and Kernel Radial Basis Function for SVM prediction model. The use of Support Vector Machine and K-Nearest Neighbor models are used to obtain relevant and accurate results in secondary structure prediction. Some of the proposed principles have interesting and relevant biological clarifications. The obtained results confirm that the presence of certain amino acids in the protein sequence increases the stability for the predicted secondary structure of the protein. In this study, the KNN algorithm has a better performance in predicting the secondary structure of proteins than the SVM algorithm.
Keywords