کتابداری و اطلاع‌رسانی (Dec 2009)

شناسایی واژه‌های غیرمفهومی (رایج) در نمایه سازی خودکار مدارک فارسی

  • مجیده سنجی,
  • محمدرضا داورپناه

Journal volume & issue
Vol. 12, no. شماره 4 (پیاپی 48)
pp. 9 – 36

Abstract

Read online

پژوهش حاضر با هدف شناسایی واژه‌های غیرمفهومی در زبان فارسی و تهـیه سیاهه‌ای از این واژه‌ها برای نمایه‌سازی خودکار متنهای فارسی در رشته‌های روانشناسی، علوم‌تربیتی و کتابداری و اطلاع‌رسانی انجام شده است. این پژوهش با روش تحلیل محتوا صورت گرفته‌است. جامعه آماری این پژوهش را مقاله‌های مندرج در آخرین شماره منتشر‌شده در مجله‌های علمی و پژوهشی ِ رشته‌های علـوم‌تربیتی، روانشناسی و کتابداری و اطلاع‌رسانی در سال 1385 تشکیل می‌دهد. نمونه شامل 63 مقاله است. گردآوری داده‌ها با استفاده از تفکیک واژگان به صورت ماشینی و دستی صورت گرفت. نتایج پژوهش نشان داد: 1- افعال ( معین و همراه‌شونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علائم سجاوندی به‌عنوان واژه نمایه‌ها ظاهر نمی‌شوند، بنابراین، آنها را می‌توان واژه‌های غیرمفهومی یا به اصطلاح واژه‌های بازدارنده تلقی کرد. 2- بدون احتساب علائم سجاوندی، در رشتة علوم تربیتی 96/39%، در رشته روانشناسی 57/38% و در رشـــته کتابداری 12/38% از حجم متون را واژه‌های غیرمفهومی تشکیل می‌دهد. 3- واژه‌های بازدارندة پربسامد در هرسه حوزه تقریبا مشابه است. 4- از تعداد 248552 واژه (بدون احتساب علائم سجاوندی) که پیکرة زبانی مورد مطالعه را تشکیل می‌داد، 97280 واژه که 94/38% کل واژه‌ها را شامل می‌شود، جزء واژه‌های بازدارنده هستند.5- نتیجة مقایسه فهرست فارسی حاصل از پژوهش با فهرست واژه‌های بازدارنده انگلیسی نشان داد بین این دو فهرست به میزان 5/28% همپوشانی وجود دارد. 6. همچنین 38/20% از واژه‌ها فاقد توزیع بسامدی یکسان در سه رشتة مورد مطالعه می‌باشند.