زبان پژوهی (Oct 2024)
ساخت پیکره مقایسهای تخصصی «پارسا»
Abstract
پیکره ها براساس زبان بهکاررفته در متنهای تشکیل دهندة آنها به پیکرههای تک زبانه، دوزبانه و چندزبانه گروهبندی میشوند. پیکرة مقایسه ای، پیکرهای است دوزبانه یا چندزبانه که شامل متنهایی است مشابه در حوزههای موضوعی یکسان. با وجود کاربرد فراوان این نوع پیکرهها در پژوهشهای گوناگون همچون پژوهشهای زبانی، ترجمة ماشینی و سامانههای خودکار بازیابی اطلاعات بینازبانی، پژوهشگران همواره با کمبود پیکرههای مقایسه ای مواجه بودهاند. در این مقاله، به معرفی مراحل ساخت یک پیکرة مقایسهای تخصصی به نام «پارسا» پرداخته شدهاست. این پیکره از چکیدههای فارسی و انگلیسی پایان نامه ها و رساله های ثبتشده در پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ساخته شدهاست و شامل بیش از 89 میلیون واژه فارسی و 79 میلیون واژه انگلیسی است. محتوای این پیکره عمومی نیست و مشتمل بر متنهای بسیار تخصصی در حوزههای موضوعی کلان مانند علوم اجتماعی، علوم انسانی و هنر، فنی ومهندسی و رشته های مربوط به این حوزهها است و ازاینجنبه، برای پردازشهای زبانی که نیازمند بهره گرفتن از متنهای تخصصی است، بسیار ارزشمند است. برای ساخت این پیکره، پس از نمونه گیری، دادههای فارسی وارد فرایند پیش پردازش (هنجارسازی و واحدسازی) شدند. برای ارزیابی این مرحله دقت (P)، فراخوان (R) و F1 سنجیده شد. دقت، 5614035088. 0، فراخوان، 0531561462. 0 و در پایان، F1 09711684370257966. 0 محاسبه شدهاست. سپس، دادهها برچسبگذاری شدند (برچسب گذاری اجزای کلام) و برچسبهای متون فارسی کنترل شدند. دادههای انگلیسی نیز بهصورت ماشینی برچسبگذاری شدند. شمار واژههای محتوایی (فعل، اسم، صفت، قید) دادههای فارسی این پیکره 57653813 و شمار واژههای دستوری بههمراه اعداد و علائم سجاوندی 31350125 است و بن واژههای فارسی استخراج شده نیز شامل 41064 بن واژه است. شمار واژههای محتوایی متون انگلیسی 45606686 و شمار واژههای دستوری بههمراه اعداد و علائم سجاوندی شامل 33662304 و بنواژههای انگلیسی استخراج شده نیز شامل 12937 بن واژه است. پیکرۀ ساخته شده قابلیت بسیار بالایی برای دادهکاوی، پژوهشهای مربوط به ترجمه ماشینی و بهکارگیری در تمام پژوهشهایی که بر روی متون علمی انجام میشود را دارا است.
Keywords