علوم و فنون مدیریت اطلاعات (Sep 2022)

ارائه رویکرد ترکیبی مبتنی بر یادگیری عمیق و یادگیری ماشین جهت تشخیص اخبار جعلی: مطالعه موردی اخبار فارسی در حوزه کرونا ویروس

  • وحید متقی,
  • مهدی اسماعیلی,
  • قاسمعلی بازایی,
  • محمدعلی افشارکاظمی

DOI
https://doi.org/10.22091/stim.2021.7311.1640
Journal volume & issue
Vol. 8, no. 3
pp. 283 – 316

Abstract

Read online

هدف: اطلاعات غلط یا تأیید نشده، دقیقاً مانند اطلاعات دقیق در وب منتشر می‌‌شوند. بنابراین، ممکن است ویروسی شوند و بر افکار عمومی و تصمیمات آن تأثیر بگذارند. اخبار جعلی و شایعات به ترتیب محبوب‌‌ترین اشکال اطلاعات دروغ و تأیید نشده را نشان می‌‌دهند و برای جلوگیری از تأثیرات چشمگیر آنها باید در اسرع وقت کشف شوند. علاقه به تکنیک‌‌های مؤثر در شناسایی، در سال‌‌های اخیر بسیار سریع در حال افزایش است. مسئله تشخیص اخبار جعلی به عنوان یک مسئله طبقه‌‌بندی در پردازش زبان طبیعی و متن‌کاوی شناخته می‌‌شود و هدف آن تفکیک و تشخیص اخبار جعل از واقعی، در متن‌‌های استخراج شده و بهبود در دقت تشخیص اخبار جعلی است. شبکه‌‌های عصبی کانولوشن به عنوان یکی از مهم‌‌ترین مدل‌‌های یادگیری عمیق دقت بالایی را بر روی این مسائل بدست آورده‌‌اند.این شبکه‌‌ها شامل مشکلاتی مثل عدم در نظر گرفتن موقعیت کلمات می‌‌باشند که مسأله مذکور با استفاده از شبکه کپسول برطرف گردیده و جهت حل مشکل پردازش سنگین لایه‌‌های تمام متصل و فضای پارامتریک الگوریتم‌‌های XGBOOST و بهینه‌سازی ازدحام انبوه ذرات (PSO) برای دستیابی به دقت و صحّت بهینه پیشنهاد شده است.روش‌‌: مطالعه حاضر پژوهشی کاربردی بوده که در آن حدود 42000 اخبار فارسی از شهرهای مختلف ایران از توییتر جمع‌‌آوری شده و با استفاده از روش‌‌های پاک‌‌سازی و پیش‌‌پردازش، اطلاعات اضافی حذف و پس از برچسب زدن، اخبار آماده به‌کارگیری جهت رویکرد پیشنهادی با استفاده از نرم‌‌افزار پایتون و کتابخانه‌‌های مربوطه با الگوریتم‌‌های یادگیری ماشین و یادگیری عمیق شد.یافته‌‌ها: طی بررسی، آزمایش و تست، برخی از الگوریتم‌‌های یادگیری ماشین دارای قدرت بیشتری در مسائل طبقه‌‌بندی بودند، ولی با تغییرات و اعمال روش‌‌های پیشنهادی که در ساختار الگوریتم شبکه کانولوشن و شبکه کپسول صورت گرفت، نتایج بهینه نسبت به الگوریتم‌‌های یادگیری ماشین و سایر الگوریتم‌‌های پایه و الگوریتم‌های مورد ارزیابی بدست آمد.نتیجه‌‌گیری: راهکارهای پیشنهادی در این تحقیق در مقایسه با رویکردهای الگوریتم‌‌های پایه و یا راهکارهای صورت گرفته جهت حل مشکلات مذکور بدون اضافه کردن سربار اضافی از لحاظ تعداد ویژگی‌‌ها و عمق شبکه، با تغییر در ورودی توانسته است به نتایج بهتر و قابل قبول از سایر رویکردهای موجود در ادبیات دست یافته و به دقت و صحّت حدود 96 درصد دست یابد.

Keywords