Jurnal Teknologi Informasi dan Ilmu Komputer (Aug 2024)
Otomatisasi Pendeteksi Kata Baku Dan Tidak Baku Pada Data Twitter Berbasis KBBI
Abstract
Penelitian ini mengembangkan sistem deteksi otomatis kata-kata baku dan non-baku pada data Twitter berbasis Kamus Besar Bahasa Indonesia (KBBI). Twitter merupakan platform media sosial yang populer, namun sering kali digunakan dengan kata-kata tidak baku yang mengganggu komunikasi. Normalisasi kata-kata tidak baku diperlukan untuk pemrosesan dan analisis tweet. Penelitian sebelumnya menggunakan metode Levenshtein Distance dan pengklasifikasi Naïve Bayes, serta Term Based Random Sampling dalam proses Stopword Removal. Preprocessing penting dalam klasifikasi teks di media sosial. Penelitian ini fokus pada preprocessing dan deteksi kata-kata baku dan non-baku pada data Twitter menggunakan KBBI. Sistem otomatis ini membantu peneliti mencari kata-kata non-baku atau slang dengan mudah, meningkatkan kualitas komunikasi, dan pemahaman pesan di data Twitter yang mencerminkan tren bahasa yang berkembang. Penelitian ini juga memperkenalkan pendekatan yang terstruktur untuk mengotomatisasi deteksi kata-kata baku dan non-baku, dengan langkah-langkah yang meliputi pengumpulan data, preprocessing data, identifikasi bahasa tidak baku, penghapusan kata berimbuhan, dan identifikasi kata slang. Metode ini mendukung analisis sentimen dalam text mining dan memastikan hasil klasifikasi sentimen yang lebih akurat dalam data Twitter. Berdasarkan pengujian, langkah-langkah preprocessing meningkatkan performa metode penentuan polarity dengan accuracy InSet sebesar 66,66% dan F1-score sebesar 61,40%.