نخستین شبکه واژگانی فارسی معرفی شد

 

به گزارش خبرنگار پایگاه خبری کتابداری و اطلاع رسانی ایران (لیزنا)، مرکز اطلاعات و مدارک علمی، چهارمین سخنرانی علمی خود را در سال جاری، روز چهارشنبه مورخ 28 مهر ماه 1389 در ساعت 14، در سالن اجتماعات پژوهشگاه علوم و فناوری اطلاعات ایران برگزار کرد.

این نشست با حضور دکتر مهرنوش شمس فرد، عضو هیأت علمی دانشگاه شهید بهشتی، و سخنرانی وی درخصوص نخستین شبکه واژگانی فارسی و معرفی فارس نت برگزار شد.

محورهای موردبحث شده توسط دکتر شمس فرد شامل بخش های کلی؛ مقدمه شامل تعریف مسأله و ضرورت حل آن، مروری بر شبکه واژگانی فارسی، ویژگی های فارس نت، نحوه ساخت فارس نت، ابزارهای تولید شده، ارزیابی، نتیجه گیری و فعالیت های آتی بود. وی به صورت اجمالی به معرفی هر یک از این بخش ها پرداخت.

دکتر مهرنوش شمس فرد، عضو هیأت علمی دانشگاه شهید بهشتی، در ابتدای سخنان خود، تعریفی از ورد نت  و ضرورت های آن ارائه کرد و افزود: با توجه به هوش و توانایی ذهنی انسان، ضرورت ظهور فناوری در عرصه پردازش و ذخیره سازی اطلاعات رایانه ها با توجه به تحقیقات مستمر زبانشناسان در این زمینه وجود دارد. به همین دلیل، و با وجود حجم زیاد واژگان و پیچیدگی ساختار آنها اقدام به تهیه مدلی برای واژگان ذهنی صورت گرفت که نتیجه آن تهیه شبکه واژگانی فارسی تحت عنوان «ورد نت فارسی» بود. نخستین مرحله طرح ورد نت فارسی با مدیریت دانشگاه شهید بهشتی و حمایت مرکز تحقیقات مخابرات اجرا شده است. در تهیه این برنامه ضرورت حضور متخصصان از هر دو حوزه رایانه و زبان شناسی وجود دارد.

وی در ادامه موضوع شبکه واژگانی فارسی را مطرح کرد و گفت: پردازش زبان طبیعی یکی از نیازهای عصر فناوری جهت استفاده بهینه از منابع اطلاعاتی است. امروزه با رشد حجم مستندات تولید شده و نیاز به نگهداری، دسته بندی، بازیابی و پردازش ماشینی و سریع آنها توجه به پردازش زبان طبیعی بیش از پیش خودنمایی می کند.

دکتر شمس فرد افزود: واژگان معنایی، باعث ساخت بسیاری سیستم های پردازش زبان فارسی شد. وجود یک واژگان معنایی برای این زبان در ترجمه ماشینی، بازیابی اطلاعات تک و دوزبانه، خلاصه سازی اسناد، مدیریت محتوا در سیستم ها، شناسایی خطاهای نحوی و معنایی متون، درک و تولید متون فارسی، تشخیص صحبت، تبدیل متن به گفتار، تحلیل نحوی، استخراج اطلاعات از متون و بسیاری کاربردهای دیگر، نقش اساسی ایفا می کند. وجود چنین منبعی همچنین می تواند در تهیه منابع زبانی دیگر از جمله پیکره هایی با برچسب معنایی کاربرد داشته باشد.

شمس فرد به فعالیت های دانشگاه شهید بهشتی در این زمینه اشاره کرد و گفت: دانشگاه شهيد بهشتي با پشتیبانی مرکز تحقیقات مخابرات ایران اقدام به ایجاد وردنت فارسي نموده است كه متناسب با ويژگي­هاي بومي خط و زبان فارسي مي باشد. در واقع هدف، ايجاد يک شاخه فارسي براي Word Net است که در تحقيقات و پژوهش­هاي زبان فارسي قابل استفاده باشد و امکانات تبديل چند زبانه را نيز فراهم کند. در حال حاضر اين پايگاه دانش حاوي 10000 مجموعه مترادف (18000 واژه) است.

وی اظهار داشت: در این طرح سه مرحله اولیه داشتیم و با استفاده از روش نیمه اتوماتیکدرصدد تهیه ساختار های جدید برآمدیم. از این طریق می توان روابط هم معنا را به صورت دقیق و بدون سوگیری به زبان انگلیسی فراهم، و همه ی مفاهیم پایه به زبان فارسی را استخراج کرد.

دکتر شمس فرد ضمن اشاره به ابزارهای تولید شده، گفت: ابزارهای مورد استفاده در ورد نت فارسی، یک سری بخشها را برای تهیه در نظر گرفته است و چهار محور اصلی در خودکار سازی این پروژه دخیل بود. این مراحل شامل: نگاشت نیمه خودکار کلمات در ورد نت انگلیسی، استخراج خودکار روابط از پیکره وب، دسته بندی نیمه خودکار سه فاز و ایجاد رابطه تضاد بین آنها و مرحله آخر انجام آزمونهای ارزیابی می باشد.

وی با توجه به کارهایی که در این راستا صورت گرفته بود ابراز داشت: از کارهایی که باید انجام می شد نگارش متن فارسی در ورد نت فارسی با اتصال به ورد نت انگلیسی بود چون مواردی که در ورد فارسی است در ورد نت انگلیسی هم است. مسأله مورد توجه این است که گفته می شود این سین­ست (Synsets) (مجموعه مترادف ها) زبان انگلیسی معادل سین­ست در زبان فارسی است.

وی در ادامه افزود: این کار قاعدتا با کمک زبانشناسان متخصص انجام شد و با توجه به اینکه کاری زمان بر بود نتیجه حاصل از آن تهیه ابزار واژه نگار بود. طرح نگاشت نیمه خودکار در دو فاز انجام شد به این صورت که کلمات هم معنا به زبان انگلیسی وصل و در نهایت نزدیکترین سین­ست به لغت مورد نظر دارد تعیین می شد که در این راستا تعدادی واژگان کاندیدا وجود داشت و به ترتیب احتمال نگارش مرتب شد.

دکتر شمس فرد در ادامه گفت: مرحله بعد تبدیل سین­ست های فارسی به سین­ست های انگلیسی نگاشته شده بود که با استفاده از سیستم ترجمه و کاربرد فرهنگ لغتها، این کار با نگاشت کلمات انجام می شد و برای تهیه  قسمتی از سلسله مراتب اسامی نیز به صورت دستی ساخته شد تا بتوان از آن استفاده کرد.

وی اظهار کرد: در واقع یک کلمه که احتمال نگاشت آن به شکل های مختلف وجود دارد در یک سیستم قرار می گیرد که می توان آن را توسط nسیستم دیگر نیز نگاشت.

دکتر شمس فرد به روابط موجود میان سین­ست های هر دو زبان اشاره کرد و گفت: در نگاشت کلمات به رابطه پدر و فرزند سیستم توجه شد. همانگونه که به روابط پدر و  فرزندهای سین­ست انگلیسی توجه می شد در نهایت با اشتراک گیری به این نتیجه رسیدیم که این سین­ست محتمل است که به کدام  سیستم نگاشته شده است و باید توجه داشت که تمام مراحل کار، زیر نظر و پیشنهاد زبانشناسان صورت می گیرد.

وی اضافه کرد: یکی از مشکلات نگاشت، وجود یا عدم وجود یک مفهوم در هر دو ورد نت فارسی و زبان انگلیسی است، و مسأله دیگر وجود سطوح جزئی سازی در فرایند دو ورد نت است که نگاشت ها در بعضی موارد یک به یک نیستند و در برخی موارد نیز نگاشت صورت گرفته است.

دکتر شمس فرد گفت: از زمینه های دیگر که به صورت نیمه خودکار انجام شد، استخراج و دسته بندی نیمه خودکار صفت ها و استخراج رابطه تضاد بین آنها بود که در این رابطه تضاد، یک سری قوانین رابطه مورفولوژی تضاد ایجاد می شد و با این کار تضاد در سطح واژه شناسایی و با تایید زبانشناسان به سیستم افزوده شد.

وی در ادامه افزود: در دسته بندی سیستم نیمه خودکار سه فاز که بر روی پیکر بنیاد انجام، مجموعه اسامی در هر صفت را رتبه بندی، و بعد بر اساس میزان اشتراک این مجموعه سعی در دسته بندی این صفت ها با همدیگر شد، سپس اصلی ترین صفت هر دسته مشخص گردید و با تایید زبانشناسان گروه وارد مجموعه جداگانه ای شد.

شمس فرد در ادامه به معرفی یکی دیگر از بخش های ورد نت پرداخت و اظهار داشت: یک بخش از شبکه واژگان فارسی، استخراج خودکار روابط مفهومی است که عمده منابع مورد استفاده در این کار، فرهنگهای دو زبانه یا دیکشنری (پیکره) است و با چهار رویکرد اساسی؛ مبتنی بر الگو، روش های ساختاری، روش آماری و روش مبتنی بر شباهت استخراج خودکار روابط انجام شد.

دکتر شمس فرد در ادامه صحبتهای خود به بررسی هر کدام از این چهار روش پرداخت و گفت: در روش مبتنی بر الگو بیش از 30 الگو معرفی شد و عمده علت خطا در این قسمت از کار، وجود حرکات اضافه زبان فارسی بود. در این طرح، در بخش ساختاری از ساختارهای ویکی پدیا استفاده کردیم مثل جدول ها، کول ادیت ها و هایپرنت ها.

وی تأکید کرد: در روشهاي مبتني بر الگو، الگو يا كلمات كليدي خاص كه نشانگر روابط باشند، مورد جستجو قرار می گیرد و از متن استخراج مي‌شود. ردگيري الگوهاي معنايي با اين پيش فرض انجام گرفته كه قابليت و امكان استخراج روابط به روش تحليل متن، عملي است و اين روابط پيدايي لازم را براي استخراج دارند، چون تنها در صورتي مي‌توان به استخراج خودكار روابط پرداخت كه پيدايي اين روابط در متن در حد قابل قبولي باشد.

دکتر شمس فرد در ادامه افزود: این کار در جهت بررسی پيش فرض روشهاي مبتني بر الگو را صورت گرفت. در روش مبتنی بر الگو سه حالت را بررسی کردیم. در حالت اول، یک کلمه با یک رابطه در نظر گرفته شد و سعی کردیم آن کلمه را در پیکره هر منبعی که داریم با آن منطبق کنیم. حالت دیگر استخراج روابط به این صورت بود که دو کلمه را به سیستم وارد و رابطه آنها را کنیم. در سومین حالت از روش مبتنی بر الگو، نه کلمه وجود داشت نه رابطه؛ بنابراین به سیستم دستور جستجوی هر دوی آنها یعنی کلمه و رابطه داده می شد. در روش مبتنی بر شباهت، کلمه را با کلماتی که به هم مرتبط بودند بررسی کردیم و از آنها اجتماع اشتراک گرفته شد.

در این نشست، به منظور بهره گیری بیشتر حاضران از مطالب هر بخش ورد نت، مثالهایی نیز توسط دکتر شمس فرد ارائه گردید.

در ادامه دکتر شمس فرد به کار های آتی در تهیه ورد نت فارسی اشاره کرد و گفت: تمام مراحل اشاره شده به صورت نیمه خودکار انجام گرفتند و ما بقی روش ها به صورت دستی و به کمک زبانشناسان متخصص انجام شده است. در راستای این فعالیت ها یک ادیتور نیز برای ورد نت فارسی فراهم شد که در قالب وب ارائه می شود و افراد می توانند با استفاده از نام کاربری و کلمه عبور مشخص، کلمه مورد نظر را در سیستم وارد کنند و از موارد یافت شده توسط وردنت استفاده کنند.

همچنین وی اظهار داشت: یک سیستم تحت آزمون و ارزیابی تهیه شده است و صحت داده ها بر اساس کتابهای مرجع تطبیق داده شد و برخی نیز بر اساس شم  زبانی متخصص تعیین شدند.

 وی در ادامه گفت: در کل ورد نت فارسی با 10000 دسته هم عنصر ساخته شده است که این ورد نت قابلیت جستجوی دو زبانه را دارد و در تکمیل ورد نت فارسی سطح پوشش واژگان در حال افزایش است که در حال حاضر قرار است 18000 واژه جدید به واژگان ورد نت افزوده شود. یکی دیگر کار های در دست انجام، کاربردی شدن ابزار استفاده از ورد نت، در سال های آتی می باشد.

در ادامه نشست دکتر شمس فرد به سوالات مطرح شده از طرف حاضران پاسخ داد و جلسه در ساعت 15:50 با قدردانی و تشکر، پژوهشگاه مرکز اطلاعات و مدارک علمی از دکتر مهرنوش شمس فرد به پایان رسید.

شایان ذکر است علاقه مندان و محققان می توانند برای استفاده از سیستم ورد نت فارسی که توسط آزمایشگاه پردازش زبان طبیعی دانشگاه شهید بهشتی و با حمایت مرکز تحقیقات مخابرات ایران ساخته شده است به نشانی اینترنتی (http://www.nlp2.sbu.ac.ir) مراجعه کنند و با دریافت نام کاربری و کلمه عبور ویژه اقدام به دانلود و استفاده از مطالب مورد نظر خود کنند.

خبرنگار : سمیه مردمی