کتابداری و اطلاعرسانی (Dec 2009)
شناسایی واژههای غیرمفهومی (رایج) در نمایه سازی خودکار مدارک فارسی
Abstract
پژوهش حاضر با هدف شناسایی واژههای غیرمفهومی در زبان فارسی و تهـیه سیاههای از این واژهها برای نمایهسازی خودکار متنهای فارسی در رشتههای روانشناسی، علومتربیتی و کتابداری و اطلاعرسانی انجام شده است. این پژوهش با روش تحلیل محتوا صورت گرفتهاست. جامعه آماری این پژوهش را مقالههای مندرج در آخرین شماره منتشرشده در مجلههای علمی و پژوهشی ِ رشتههای علـومتربیتی، روانشناسی و کتابداری و اطلاعرسانی در سال 1385 تشکیل میدهد. نمونه شامل 63 مقاله است. گردآوری دادهها با استفاده از تفکیک واژگان به صورت ماشینی و دستی صورت گرفت. نتایج پژوهش نشان داد: 1- افعال ( معین و همراهشونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علائم سجاوندی بهعنوان واژه نمایهها ظاهر نمیشوند، بنابراین، آنها را میتوان واژههای غیرمفهومی یا به اصطلاح واژههای بازدارنده تلقی کرد. 2- بدون احتساب علائم سجاوندی، در رشتة علوم تربیتی 96/39%، در رشته روانشناسی 57/38% و در رشـــته کتابداری 12/38% از حجم متون را واژههای غیرمفهومی تشکیل میدهد. 3- واژههای بازدارندة پربسامد در هرسه حوزه تقریبا مشابه است. 4- از تعداد 248552 واژه (بدون احتساب علائم سجاوندی) که پیکرة زبانی مورد مطالعه را تشکیل میداد، 97280 واژه که 94/38% کل واژهها را شامل میشود، جزء واژههای بازدارنده هستند.5- نتیجة مقایسه فهرست فارسی حاصل از پژوهش با فهرست واژههای بازدارنده انگلیسی نشان داد بین این دو فهرست به میزان 5/28% همپوشانی وجود دارد. 6. همچنین 38/20% از واژهها فاقد توزیع بسامدی یکسان در سه رشتة مورد مطالعه میباشند.