پژوهشنامه علم سنجی (Sep 2022)
بهینهسازی آشفتگی اسامی نویسندگان مقالات فارسی با استفاده از روش جنگل تصادفی
Abstract
هدف: ارائه چارچوبی جهت حل مشکل آشفتگی و پراکندگی اسامی نویسندگان در مقالات فارسی که منجر به گسیختگی و فقدان جامعیت در بازیابی اطلاعات شده است.روششناسی: پژوهش حاضر از نوع کاربردی علمسنجی است که به روش اسنادی انجام شده است. جامعه آماری را از 913 رکورد از نام نویسندگان مقالات فارسی برگرفته از پایگاه استنادی علوم جهان اسلام، طی بازه زمانی 1395 تا 1397 تشکیل میدهد. چارچوب پیشنهادی از سه مرحله جستجو، تطابق و گروهبندی تشکیل شده است. در این راستا، بعد از پیشپردازش اولیه و استخراج ویژگی، عملیات جستجو با هدف یافتن رکوردهایی که بالقوه احتمال یکسانبودن آنها وجود دارد انجام شده و سپس رکوردهای یکسان از طریق بررسیهای بیشتر در مرحله تطابق که مبتنی بر جنگل تصادفی است یافت میشود.یافتهها: ویژگیهای پست الکترونیک، نام خانوادگی و نام از مهمترین ویژگیها برای بهینهسازی آشفتگی نگارش اسامی هستند. استفاده از جنگل تصادفی بهعنوان طبقهبند در مرحله تطابق، با دقت بالای 99 درصد میتواند مشکل آشفتگی نگارش اسامی نویسندگان را برطرف نماید.نتیجهگیری: نتایج نشان از کارایی بالای این روش در یکدستسازی اسامی با توجه به معیارهای دقت، بازیافت و مقدار اف نسبت به طبقهبندهای بردار پشتیبان، نزدیکترین همسایه و ژنتیک دارد.
Keywords