تأثیر بسزای استفاده از فنون پردازش زبان طبیعی در کارآمدی بازیابی اطلاعات بین زبانی فارسی- انگلیسی

 

دکتر حمید علیزاده دانش آموخته دوره دکتری رشته علوم کتابداری و اطلاع رسانی دانشگاه فردوسی مشهد و عضو گروه پژوهشی زبانشناسی رایانه ای در مرکز منطقه ای اطلاع رسانی علوم و فناوری است. وی هم اکنون در پست معاونت پژوهشی این مرکز مشغول به فعالیت می باشد. پایان نامه دکترای ایشان با عنوان «بررسی کارآمدی روشهاي موجود در بازيابي اطلاعات بين زباني فارسي – انگليسي با استفاده از واژه نامه دو زبانه ماشین خوان» در اولین جشنواره علمی سیمرغ که از سوی شرکت نوسا برگزار گردیده است حائز رتبه اول شده است. پایگاه خبری کتابداری و اطلاع رسانی ایران (لیزنا) به منظور کسب اطلاع از اهمیت پژوهش وی و نتایج آن، با ایشان گفتگویی انجام داده شده است :

دکتر حمید علیزاده، در خصوص کارآمدی روشهاي موجود در بازيابي اطلاعات بين زباني فارسي – انگليسي با استفاده از واژه نامه دو زبانه ماشین خوان گفت: با گسترش روزافزون استفاده از اينترنت و غلبه بر محدوديت های دسترسی به اطلاعات که به مدد توسعه فناوری اطلاعات و ارتباطات حاصل شده است، کاربران دیگر تنها به منابع اطلاعاتی که به زبان آنها نوشته شده است اکتفا نمی کنند بلكه دسترسی به اطلاعات مرتبط در ساير زبانها را نه آرزو، بلکه حق طبيعی خود مي دانند. امروزه وظيفه بازيابی اطلاعات به فرايندهای سنتی آن محدود نمی شود، بلکه هدفهای گسترده تر، يعنی غلبه بر موانع زبانی در هنگام جستجو و بازيابی اطلاعات نيز در اين حوزه مطرح شده است.

  • براي تبادل اطلاعات در اين جامعه اطلاعاتي چند زبانه، ديگر مطلوب نيست كه به اطلاعات يك زبان خاص محدود شد.

وی افزود: تعداد زبان هاي زنده دنيا را چيزي حدود 4500 زبان تخمين مي زنند، كه از ميان آن ها در حدود 30 زبان وجود دارد كه هركدام توسط حداقل 30 ميليون نفر استفاده مي شود. بديهي است كه براي تبادل اطلاعات در اين جامعه اطلاعاتي چند زبانه، ديگر مطلوب نيست كه به اطلاعات يك زبان خاص محدود شد.

دکتر حمید علیزاده در ادامه ضمن اشاره به گسترش روزافزون منابع اینترنتی به زبان های مختلف ابراز داشت: اينترنت به عنوان محل ظهور اين زبان ها بيشترين نمود اين گوناگوني را به خود اختصاص داده است. آمارها نشان مي دهد كه استفاده از اينترنت در چند سال اخير رشد قابل ملاحظه اي داشته است. اين نرخ رشد به ويژه در خاورميانه، آمريكاي جنوبي و آفريقا بسيار چشمگير است. اين تنوع جغرافيايي با تنوع زباني نيز همراه است. بطوري كه با رشد منابع اينترنتي، مشكلات و هم سودمندي دسترسي و بهره گيري از منابع به زبانهاي ديگر نيز بيشتر شده است.

  • راه حل اصلی غلبه بر مشكلات زبانی در بهره گيری از منابع در محیط های چند زبانه بازيابی اطلاعات بين زبانی است.

عضو گروه پژوهشی زبانشناسی رایانه ای مرکز منطقه ای اطلاع رسانی علوم و فناوری تأکید کرد: راه حل اصلی غلبه بر مشكلات زبانی در بهره گيری از منابع در محیط های چند زبانه بازيابی اطلاعات بين زبانی است.

وی در ادامه در تبیین مفهوم بازيابي اطلاعات بين زباني تصریح کرد: بازيابي اطلاعات بين زباني نوعي از بازيابي اطلاعات است كه در آن حداقل دو زبان حضور دارد، زبان عبارت جستجو و زبان مجموعه مدرك. زبان عبارت جستجو را زبان اصلي و زبان مجموعه مدرك را زبان هدف يا مقصد مي نامند. يک نظام بازيابی اطلاعات بين زبانی، مدرک را در زبانی که با زبان عبارت جستجو متفاوت است بازيابی مي كند. در اين شيوه، کاربر عبارت جستجو را به زبان بومي خويش ارائه می کند، اما مدارک دريافتی به زبان مجموعه مدرک خواهد بود. این نظام  كار جستجوگراني را كه به چند زبان تسلط دارند ساده مي كند و در عين حال جستجوگراني را كه تنها به يك زبان تسلط دارند، قادر مي سازد عبارت جستجو را به زبان خود ارائه کرده و آنگاه با استفاده از دانش خود يا با بهره گيری ازکمک ديگران، بين مدارک بازيابی شده تمايز قائل شوند. سپس مدارکي را که مربوط تشخيص داده مي شود، با استفاده از عامل انسانی يا ماشينی ترجمه شده و مورد استفاده قرار می گیرد.

دکتر علیزاده ابراز کرد: در بازيابی اطلاعات بين زبانی، هم مدرک و هم عبارت جستجو می تواند ترجمه شود. چون ترجمه عبارت جستجو در مقايسه با ترجمه مدرك هم ارزان تر است و هم به صرف وقت و كار علمي كم تري نياز دارد، در پژوهش های انجام شده در این حوزه بيشتر به ترجمه عبارت جستجو توجه شده است.

  • در ترجمه عبارت جستجو سه رويکرد عمده وجود دارد: استفاده از ترجمه ماشينی، استفاده از واژه نامه های ماشين خوان و استفاده از پیکره های متن.

وی در ادامه به توضیح رویکردهای موجود در ترجمه عبارت جستجو پرداخت: در ترجمه عبارت جستجو سه رويکرد عمده وجود دارد: استفاده از ترجمه ماشينی، استفاده از واژه نامه های ماشين خوان و استفاده از پیکره های متن. هر کدام از اين رويکرد ها، نقاط ضعف و قوت خود را دارد . نتايج پژوهش ها نشان داده است که ميزان پيشرفت هايی که در ترجمه ماشينی حاصل شده است در مقايسه با هزينه هايی که صرف تحليل زبانشناسی در نظام می شود اندک بوده است. ماشين های ترجمه موجود توانايی چندانی در ترجمه دقيق مفاهيم مطرح شده در مدرک را ندارند. بنابراین اغلب تلاشها بر ترجمه عبارت جستجو متمرکز شده است؛ زيرا عبارت جستجو در مقايسه با کل يک مدرک از کلمات کمتری تشکيل می شود و در نتيجه ابهام کمتری در ترجمه آن مشاهده مي شود. استفاده از پیکره های  متن هم نقطه ضعف خود يعنی کمبود منابع قابل استفاده در زبان هاي مختلف را دارد. مجموعه های متن هميشه به راحتی در دسترس نيستند و موارد اندک موجود هم نسبتا کوچک بوده و يا فقط حجم اندکی از موضوعات را پوشش می دهد.

دانش آموخته دوره دکتری کتابداری و اطلاع رسانی دانشگاه فردوسی مشهد در ادامه گفت: در رويکرد ترجمه عبارت جستجو با استفاده از واژه نامه، عبارت های جستجوي زبان اصلي را بوسیله يافتن برابرنهاده هر اصطلاح در واژه نامه دوزبانه الكترونيكي ترجمه می کنند. نتيجه اين كار يک عبارت جستجو در زبان مجموعه مدارک (زبان هدف) است که با در نظر گرفتن بعضی يا تمام برابرنهاده ها توليد می شود. بديهی است پذيرش اين نظام توسط کاربر تا حد بسيار زيادی به کارآمدی  شيوه ای که عبارت های جستجو به آن شيوه ترجمه می شود بستگی دارد. 

سپس دکتر علیزاده در خصوص اهمیت «بازیابی اطلاعات بین زبانی فارسي- انگليسي» اظهار داشت: زبان فارسی يکی از مهم ترين و قديمی ترين زبانهای زنده دنيا است. اين زبان، زبان مادری ميليونها نفر در ايران، تاجيکستان، افغانستان و بسياری از ايرانی های مهاجر در سطح جهان است. ميليونها نفر ديگر نيز در اين کشورها و ساير کشورهای جهان از اين زبان به عنوان زبان دوم استفاده می کنند. وجود متخصصان غير فارسی زبان که سالها است در مورد اين زبان تحقيق می کنند و ايجاد رشته های آموزش زبان فارسی در بسياری کشورها، دليلی ديگر بر اهميت اين زبان است. با گسترش زياد دسترسی به اينترنت ميان فارسی زبانان، امروزه رفته رفته بهره گيری از منابع شبکه ای به رفتار غالب در زندگی علمی و اجتماعی قشرهای مختلف جامعه فارسی زبان تبديل شده است. آنگونه كه پيشتر گفته شد، استفاده از اينترنت در ميان مردم خاورميانه- که فارسی زبانها بيشتر در اين ناحيه مستقر شده اند- رشد بسياری داشته است، اما علی رغم اين رشد فزاينده و نيز افزايش قابل ملاحظه منابع فارسی در اينترنت، باز هم ميزان منابعی که در دسترس کاربران فارسی قرار دارد در مقایسه با سایر زبان های اصلی اندک است.

وی در ادامه تأکید کرد: اين وضعیت هنگامی مايوس کننده به نظر می آيد که بدانيم فقط درصد کمی از جمعيت فارسی زبان (حتی در ميان تحصيلکردگان) مهارت استفاده از منابع اينترنتی انگليسی زبان را دارند. به اين دليل منابع اطلاعاتی ميليونها فارسی زبان که به اينترنت دسترسی دارند يا نيازمند استفاده از پايگاههای اطلاعاتی بزرگ هستند، بسيار محدود می باشد. اين مساله با توجه به دريای بيکران اطلاعات که در اختيار جامعه انگليسی زبان (و تا حدی ساير زبانهای پركاربرد) قرار دارد ناراحت کننده است و البته تبعات آن می تواند عدم دسترسی به نتایج آخرين تحقيقات علمی باشد که اين خود عقب ماندن از قافله علم و پيشرفت را به دنبال دارد.

دکتر حمید علیزاده گفت: نکته ديگر آنکه حتی در مقايسه با زبانهای مورد استفاده در ساير کشورهای همجوار مثل ترکی و عربی، حجم تحقيقات حوزه بازيابی اطلاعات در مورد زبان فارسی اندک به نظر می رسد. شاهد اين مدعا وجود سمينارهای متعدد در TREC و ساير مجامع مرتبط با بازيابی اطلاعات بين زبانی در مورد زبان های غير انگليسی است (چنانکه به طور مثال ترک 2001 محور اصلی خود را بازیابی اطلاعات بین زبانی عربي- انگليسی قرار داد). 

  • تعريف هاي ارائه شده در واژه نامه ها براي استفاده انسان طراحي شده است، اما اين شيوه طراحی باعث سردرگمي نظام هاي رايانه اي در هنگام ترجمه خودكار مي گردد.

در ادامه معاون پژوهشی مرکز منطقه ای اطلاع رسانی علوم و فناوری در تبیین رویکرد مورد استفاده در پژوهش اظهار داشت: در پژوهش خود به بررسي رويكردهاي موجود در بازبينی فارسي- انگليسي مبتني بر واژه نامه دوزبانه الكترونيكي پرداختم. اگرچه در مقايسه با ترجمه ماشيني و پیکره های متنی، استفاده از واژه نامه هاي الكترونيكي شيوه برگزيده تري است، اما استفاده از اين شيوه نيز مسايل و مشكلات خاص خود را دارد. يكي از اين مشكلات آن است كه منابع واژگاني مناسب براي ترجمه چندان در دسترس نيستند.

وی افزود: اگرچه زبان هايي چون زبان انگليسي با مشكلات كمتري در اين زمينه مواجه هستند اما زبان هاي ديگر مثل زبان فارسي كه در اين پژوهش زبان اصلي عبارت های جستجو به حساب مي آید با چنين مشكلي روبرو است. یکی از دلایل این امر نوپا بودن طراحي و استفاده از واژه نامه هاي الكترونيكي در زبان فارسي است. واژه نامه هاي موجود نيز داراي كاستي هاي بسياري ( از قبيل پوشش ناكافي و عدم يكدستي در نحوه ارايه برابرنهاده ها) است. محتوای ارائه شده در این واژه نامه ها در جهت استفاده بهينه در ترجمه عبارت های جستجو، به پردازش هاي زبانشناختي متعددي نيازمند است. درواقع تعريف هاي ارائه شده در واژه نامه ها براي استفاده انسان طراحي شده است، اما اين شيوه طراحی باعث سردرگمي نظام هاي رايانه اي در هنگام ترجمه خودكار مي گردد. اين موضوع به ويژه در هنگام انتخاب برابرنهاده مناسب براي اصطلاح هاي مورد ترجمه رخ مي دهد. كاربر انساني به مدد تجربيات قبلي و زمينه موضوعي، از ميان چند برابرنهاده يكي را انتخاب مي كند اما نظام رايانه اي در اين انتخاب با مشكل روبرو است.

دکتر حمید علیزاده در خصوص رویکردهای ترجمه با واژه نامه های دو زبانه ماشين خوان افزود:  به طور كلي در ترجمه با واژه نامه های دو زبانه ماشين خوان دو رويکرد عمده وجود دارد. در نخستين رویکرد که با نام هربرابرنهاده ( يا تک تک برابرنهاده ها) شناخته می شود، همه برابرنهاده هايي که برای يک اصطلاح خاص در يک واژه نامه دوزبانه ماشين خوان وجود دارد در نظر گرفته می شود. در اين روش ترجمه، واژه های عبارت جستجوی فارسی با جايگزين کردن آنها به وسيله معادلهای زبان هدف( انگليسی) ترجمه مي شود. اين روش به اين دليل که اصطلاح های بعضا نامربوط را به عبارت جستجوی ترجمه شده به زبان هدف اضافه می کند می تواند منجر به بروز ابهام در ترجمه گردد که اين  خود منجر به کارايی ضعيف در بازيابی می گردد. از سوی ديگر اين روش می تواند گونه ای از بسط جستجو تلقی شود که به مدد ترجمه با واژه نامه انجام می گردد.

  •  استفاده از فنون پردازش زبان طبیعی تاثیر بسزایی در کارآمدی بازیابی اطلاعات بین زبانی فارسی- انگلیسی دارد.

وی در ادامه افزود: شيوه بعد روش انتخاب اولين برابرنهاده نام دارد. دراين روش به جای در نظر گرفتن همه برابرنهاده هاي زبان هدف برای يک اصطلاح خاص، فقط از اولين برابرنهاده استفاده می شود. مزيت اين رويکرد در اين نکته نهفته است که معمولا نظم ارايه معادل برای لغات در واژه نامه ها بر اساس استفاده معمول آنها است، كه به اين ترتيب پراستفاده ترين برابرنهاده برای يک واژه در ابتدا می آيد و ساير برابرنهاده ها بعد از آن ظاهر می شود. شيوه اولين برابرنهاده، واژه های کم استفاده را در نظر نمی گيرد. بنابر اين به طور بالقوه می تواند باعث کاهش ابهام در ترجمه و کارآمدی بازيابی گردد(البته بايد به اين نکته نيز اشاره كرد که در بسياری از واژه نامه ها، اصولا این روش استفاده نمی شود و مثلا برابر نهاده ها به لحاظ دستوری مقوله بندی شده و برای مثال ابتدا "اسم" مي آيد و سپس "صفت" و بعد ساير شكل هاي كلمه مي آيد. بعضي از واژه نامه ها هم برابرنهاده ها را نه از روي بيشترين استفاده بلكه به صورت الفبايي مي آورند. در نهایت می توان گفت ماهيت زبان طبيعي كه در فرايند بازیابی اطلاعات بین زبانی استفاده مي شود(ارائه عبارت جستجو به زبان اصلي، ترجمه و ساخت عبارت جستجوي جديد و بازيابي اطلاعات در زبان هدف همگي بر اساس زبان طبيعي صورت مي پذيرد) نشان دهنده لزوم بهره گيري از فنون پردازش زبان طبيعي و زبانشناسي رايانه اي براي دستيابي به كارآمدي در اجراي نظام بازبين است. 

دکتر علیزاده در پایان یافته های اساسی پژوهش را اینگونه بیان کرد: در پژوهش مذکور، کارآمدی شیوه های موجود در بازیابی اطلاعات بین زبانی فارسی- انگلیسی با رویکرد واژه نامه دوزبانه ماشین خوان بررسی گردید. بررسی میزان تاثیر انجام پردازش های زبان طبیعی بر روی ترجمه عبارت های جستجو مساله اساسی این پژوهش بود. فنون پردازش زبان طبیعی که در این پژوهش بکار گرفته شد شامل قطعه بندی متن، شناخت گونه های زبانشناختی، حذف سیاهه بازدارنده، تحلیل مورفولوژیک( ساخت واژه)  و برچسب زنی انواع کلام بود. در نهایت یافته های این پژوهش نشان داد که استفاده از فنون پردازش زبان طبیعی تاثیر بسزایی در کارآمدی بازیابی اطلاعات بین زبانی فارسی- انگلیسی دارد.