کد خبر: 30776
تاریخ انتشار: دوشنبه, 10 مهر 1396 - 10:37

داخلی

»

مطالب کتابداری

»

کتابخانه و کتابداری

ایجاد نخستین پیکره به‌روزشونده در زبان فارسی توسط محققان دانشگاهی

منبع : لیزنا
پژوهشگران زبان‌شناسی دانشگاه شیراز برای نخستین بار پیکره‌ای را برای متون فارسی ایجاد کرده‌اند که هر روز به صورت خودکار و متوازن به‌روزرسانی می‌شود.
ایجاد نخستین پیکره به‌روزشونده در زبان فارسی توسط محققان دانشگاهی

به گزارش لیزنا،  بر اساس اعلام روابط عمومی دانشگاه شیراز، امیرسعید مولودی، عضو هیئت علمی بخش زبان‌های خارجی و زبان‌شناسی دانشگاه شیراز و مدیر پروژه پیکره به‌روزشونده با بیان اینکه در این پیکره استانداردهایی رعایت شده است که پیش از این در تهیه پیکره‌های زبان فارسی مغفول مانده بود، گفت: این پیکره و جستجوگر آن ابزار پژوهشی مهمی برای تحقیقات زبان‌شناسی و سایر حوزه‌های علوم انسانی است و علاوه بر این برای اهداف پردازشی زبان فارسی نیز می‌تواند مورد استفاده قرار گیرد.

وی افزود: ایده اولیه این طرح حدود دو سال پیش شکل گرفت و پس از انجام مراحل مطالعاتی در سال ۱۳۹۵، پیاده‌سازی فاز نخست آن با تمرکز بر متون خبری آغاز شد که رونمایی از این پیکره، مطابق برنامه‌ریزی‌های انجام‌گرفته، در هفته پژوهش امسال در آذرماه انجام خواهد شد.

مدیر پروژه پیکره به‌روزشونده با اشاره به این نکته که امروزه از پیکره‌های زبانی تقریباً در تمامی حوزه‌های علوم انسانی به طور عام و مطالعات زبانی به طور خاص استفاده می‌شود، گفت: بحث به‌روز بودن، توازن و نماینده بودن سه ویژگی مهم برای کارآمدی پیکره‌های زبانی است که در پروژه حاضر مورد توجه قرار گرفته است؛ بنابراین پیکره حاضر از این حیث که تنوعات زبانی را با انتخاب داده از ژانرهای مختلف پوشش می‌دهد، داده به میزان مساوی از هر ژانر انتخاب می‌شود و اینکه هر روز داده‌های آن افزایش می‌یابد، به‌ترتیب برخوردار از سه ویژگی نماینده‌ بودن، توازن و به‌روزشوندگی است.

وی ادامه داد: به‌روزشونده بودن پیکره حاضر به پژوهشگر این امکان را می‌دهد که بتواند تغییرات زبانی و حتی فرهنگی-جامعه‌شناختی را با استفاده از آن بررسی و تحلیل کند.

مولودی یادآور شد: در فاز نخست این پروژه، هر روز متون خبری به صورت متوازن از ۶ حوزه موضوعی و از خبرگزاری‌های مختلف به پیکره اضافه می‌شود.

همچنین مرتضی رضایی شریف‌آبادی، دانشجوی دکتری زبان‌شناسی دانشگاه شیراز و مسئول فنی پروژه با بیان اینکه مراحل اجرایی کار با همکاری تیمی قوی از مهندسان نرم‌افزار و با بهره‌گیری از جدیدترین فناوری‌ها انجام شده است، گفت: علاوه بر امکان دریافت داده پیکره، علاقه‌مندان می‌توانند برای کاوش در پیکره از ابزار جستجوی برخط تهیه‌شده استفاده کنند.

وی افزود: تمام متون پیکره به صورت خودکار نرمال‌سازی و ریشه‌یابی می‌شوند و برچسب اجزای کلام به واژه‌های آن‌ها اختصاص می‌یابد و برای توازن متون در سطح موضوع و زیرموضوع و همچنین توازن زمانی نیز از روشی ابتکاری استفاده شده است.

رضایی تصریح کرد: هم‌اکنون پیکره به‌روزشونده و ابزار جستجوگر آن به صورت آزمایشی و با دسترسی محدود راه‌اندازی شده است.

بر اساس اعلام روابط عمومی دانشگاه شیراز، یکی از مهم­ترین گام‌ها در طراحی و ساخت سیستم‌های بازشناسی گفتار پیوسته با دایره لغات بزرگ (LVCSR)، تعلیم مدل زبانی (Language Model) برای مدل کردن نحوه توالی کلمات در یک زبان خاص است. برای انجام چنین کاری، داشتن مقادیر بسیار زیادی از دادگان متنی (Text) از آن زبان همراه با برچسب‌های لازم ضروری است. از طرفی در بسیاری از پروژه‌های تحقیقاتی در زمینه پردازش زبان طبیعی (Natural Language Processing)، چنین دادگانی مورد نیاز است.

پیکره مجموعه‏‌ای از پاره‌‏های زبانی است که انتخاب و بر اساس معیارهای زبانی روشنی مرتب می‌‏شوند به ‏نحوی که همچون نمونه‌‏ای از زبان به کار گرفته می‌شوند. پیکره شامل متن‌های پیوسته طبیعی است که می‌‏توان از آن اطلاعاتی درباره عناصر زبانی، هم واژگانی هم غیرواژگانی (مانند سبک، نقطه‌‏گذاری، دستور، گونه کاربردی) به ‏دست آورد.

کشف واژه‌‏هایی خاص یا کاربردهایی خاص از آنها در پیکره‌‏ای از متن‌های معتبر که متخصصان هر زمینه موضوعی آن را نوشته‌‏اند، بسیار ارزشمند است زیرا نشان می‏‌دهد اگرچه همه واژه‌‏ها در فرهنگ‏‌های لغت ظاهر می‌‏شوند، در بافت‌‏هایی خاص نمی‌‏توان از آنها استفاده کرد، حتی اگر جمله به لحاظ دستوری درست باشد.

خواهشمند است جهت تسهیل ارتباط خود با لیزنا، در هنگام ارسال پیام نکات ذیل را در نظر داشته باشید:
۱. از توهین به افراد، قومیت‌ها و نژاد‌ها خودداری کرده و از تمسخر دیگران بپرهیزید و از اتهام‌زنی به دیگران خودداری نمائید.
۲.از آنجا که پیام‌ها با نام شما منتشر خواهد شد، بهتر است با ارسال نام واقعی و ایمیل خود لیزنا را در شکل دهی بهتر بحث یاری نمایید.
۳. از به کار بردن نام افراد (حقیقی یا حقوقی)، سازمان‌ها، نهادهای عمومی و خصوصی خودداری فرمائید.
۴. از ارسال پیام های تکراری که دیگر مخاطبان آن را ارسال کرده اند خودداری نمائید.
۵. حتی الامکان از ارسال مطالب با زبانی غیر از فارسی خودداری نمائید.
نام:
ایمیل:
* نظر: