زبان پژوهی (Oct 2024)

ساخت پیکره مقایسه‌ای تخصصی «پارسا»

  • الهام علایی ابوذر,
  • علی اصغر حجت‌پناه

DOI
https://doi.org/10.22051/jlr.2023.44928.2348
Journal volume & issue
Vol. 16, no. 52
pp. 219 – 246

Abstract

Read online

پیکره ­ها براساس زبان به‌کاررفته در متن‌های تشکیل ­دهندة آن­ها به پیکره­های تک­ زبانه، دوزبانه و چندزبانه گروه‌بندی می­شوند. پیکرة مقایسه ­ای، پیکره­ای است دوزبانه یا چندزبانه که شامل متن‌هایی است مشابه در حوزه­های موضوعی یکسان. با وجود کاربرد فراوان این نوع پیکره‌ها در پژوهش‌های گوناگون همچون پژوهش­های زبانی، ترجمة ماشینی و سامانه‌های خودکار بازیابی اطلاعات بینازبانی، پژوهشگران همواره با کمبود پیکره‌های مقایسه­ ای مواجه بوده‌اند. در این مقاله، به معرفی مراحل ساخت یک پیکرة مقایسه‌ای تخصصی به نام «پارسا» پرداخته شده‌است. این پیکره از چکیده­های فارسی و انگلیسی پایان­ نامه ­ها و رساله ­های ثبت‌شده در پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ساخته شده‌است و شامل بیش از 89 میلیون واژه فارسی و 79 میلیون واژه انگلیسی است. محتوای این پیکره عمومی نیست و مشتمل بر متن‌های بسیار تخصصی در حوزه­های موضوعی کلان مانند علوم اجتماعی، علوم انسانی و هنر، فنی­ ومهندسی و رشته ­های مربوط به این حوزه­ها است و ازاین‌جنبه، برای پردازش­های زبانی که نیازمند بهره ­گرفتن از متن‌های تخصصی است، بسیار ارزشمند است. برای ساخت این پیکره، پس از نمونه ­گیری، داده­های فارسی وارد فرایند پیش ­پردازش (هنجارسازی و واحدسازی) شدند. برای ارزیابی این مرحله دقت (P)، فراخوان (R) و F1 سنجیده شد. دقت، 5614035088. 0، فراخوان، 0531561462. 0 و در پایان، F1 09711684370257966. 0 محاسبه شده‌است. سپس، داده­ها برچسب‌گذاری شدند (برچسب ­گذاری اجزای کلام) و برچسب­های متون فارسی کنترل شدند. داده­های انگلیسی نیز به‌صورت ماشینی برچسب‌گذاری شدند. شمار واژه‌های محتوایی (فعل، اسم، صفت، قید) داده­های فارسی این پیکره 57653813 و شمار واژه­های دستوری به‌همراه اعداد و علائم سجاوندی 31350125 است و بن­ واژه­های فارسی استخراج ­شده نیز شامل 41064 بن­ واژه است. شمار واژه­های محتوایی متون انگلیسی 45606686 و شمار واژه­های دستوری به‌همراه اعداد و علائم سجاوندی شامل 33662304 و بن‌واژه­های انگلیسی استخراج ­شده نیز شامل 12937 بن ­واژه است. پیکرۀ ساخته ‎شده قابلیت بسیار بالایی برای داده‌کاوی، پژوهش­های مربوط به ترجمه ماشینی و به‌کارگیری در تمام پژوهش‌هایی که بر روی متون علمی انجام می‌شود را دارا است.

Keywords