Jurnal Teknologi Informasi dan Ilmu Komputer (Feb 2023)

Pengenalan Entitas Biomedis dalam Teks Konsultasi Kesehatan Online Berbahasa Indonesia Berbasis Arsitektur Transformers

  • Abid Famasya Abdillah,
  • Diana Purwitasari,
  • Safitri Juanita,
  • Mauridhi Hery Purnomo

DOI
https://doi.org/10.25126/jtiik.20231016337
Journal volume & issue
Vol. 10, no. 1
pp. 131 – 140

Abstract

Read online

Pengenalan entitas biomedis merupakan salah satu tahapan penting dalam ekstraksi informasi pada domain kesehatan. Untuk melakukannya, penelitian terkini banyak menggunakan model ekstraksi biomedis berbasis deep learning yang juga dikenal sebagai Biomedical NER (BioNER). Banyak penelitian menggunakan data sosial media sebagai basis data latih BioNER untuk memenuhi kebutuhan data yang besar. Di sisi lain, banyaknya topik bahasan pada sosial media membuat sumber data ini kurang representatif digunakan dalam pelatihan BioNER seiring dengan melimpahnya bias serta kurangnya data terkait biomedis. Oleh karena itu, penelitian ini mengusulkan suatu model BioNER yang telah dilatih pada situs konsultasi kesehatan online (KKO) agar memiliki representasi data medis lebih baik dibandingkan dengan penelitian lain yang sejenis. Kontribusi utama penelitian ini adalah terbentuknya model BioNER yang dapat digunakan dalam metode ekstraksi informasi biomedis dalam Bahasa Indonesia. Model ini dibangun menggunakan arsitektur state-of-the-art Transformers sehingga mendapatkan hasil evaluasi F1 score sebesar 0.7691, mengungguli model LSTM sebesar 0.03 poin. Hasil simulasi terhadap data riil juga menunjukkan bahwa model BioNER mampu mengenali entitas biomedis secara umum meskipun dilatih pada data yang terbatas. Selain itu, dengan digunakannya model berbasis XLM-R, maka model juga memiliki kemampuan pengenalan multibahasa sehingga potensi implementasinya tidak terbatas pada entitas Bahasa Indonesia saja. Untuk mendukung penelitian lanjutan, model pengenalan entitas biomedis ini juga dapat diakses secara publik untuk di https://huggingface.co/abid/indonesia-bioner. Abstract Biomedical entity recognition is one of the important stage in the information extraction, particularly in the health domain. Recent research uses a deep learning-based biomedical extraction model known as Biomedical NER (BioNER). Due to extensive data requirement, many studies still use social media data as a BioNER training data. On the other hand, social media data is less representative because it contains a lot of bias and lack of medical representation terms as the impact of many topics discussed. Therefore, this study proposes a BioNER model that has trained on an online health consultation platform to gain a better representation of biomedical data. This model also built using the state-of-the-art Transformers architecture. Hence, its evaluation results show that this model is able to achieve an F1 score of 0.7691, outperforming the LSTM model by 0.03. Simulation results on the real data also indicate that the BioNER model is able to recognize biomedical entities in general cases despite only trained on limited data. In addition, by using an XLM-R-based model, the recognition model also has multilingual recognition capabilities. Therefore, there is a potential implementation to apply the our BioNER model beyond Indonesian biomedical entities. Our biomedical entity recognition model is also accessible at https://huggingface.co/abid/indonesia-bioner.