نسخه چاپی

در دورهمی علمی کتابداران استان قم مطرح شد:

معرفی و بیان ویژگی‌های انواع رویکردهای نمایه‌سازی ماشینی در کتابخانه‌های دیجیتال

دورهمی علمی کتابداران استان قم در کتابخانه آیت الله بروجردی (مسجد اعظم قم) برگزار شد. در این دورهمی مهدی طاهری، عضو هیئت علمی دانشگاه علامه طباطبایی در خصوص سه رویکرد کلی نمایه سازی ماشینی توضیحاتی ارائه داد.

کد خبر: 39596

تاریخ: 1398/02/17 - 10:57

به گزارش لیزنا، طاهری در ابتدا درباره ملزومات نمایه‌سازی ماشینی گفت: نرم افزار، متن و سیاست‌ها و خط مشی نمایه‌سازی سه عنصر اصلی در نمایه‌سازی به شمار می‌روند.

او درباره تفاوت نمایه سازی ماشینی و خودکار نیز گفت: نمایه‌سازی ماشینی دارای دو مدل کلی است؛ نمایه‌سازی به کمک ماشین که انسان به کمک کامپیوتر نمایه‌سازی را انجام می‌دهد، نمایه‌سازی خودکار که تمام مراحل آن توسط کامپیوتر و به صورت خودکار است. در اصل سه رویکرد کلی نمایه‌سازی خودکار وجود دارد. نمایه سازی استخراجی خودکار، که نوع دوم نمایه‌سازی ماشینی محسوب می‌شود و کار آن استخراجی است. مبنای اصلی این رویکرد بسامد واژگان است، در این نوع نمایه‌سازی با حذف واژه‌های پر بسامدی مانند افعال و حروف اضافه، سایر واژه‌های درون متن استخراج می‌شوند. سپس طبقه بندی این واژه ها بر اساس بسامد صورت می‌پذیرد، یعنی واژه های پرکاربرد در بالاترین سطح و کم کاربردها در پایین‌ترین سطح ذخیره می‌شوند. به این مدل بسامد مطلق می‌گویند.

طاهری افزود: برای تعیین این بسامدها محدودیت‌هایی در نظر گرفتند؛ ورود واژه هایی که به میزان مشخصی تکرار می‌شوند، انتخاب حجم برای هر صفحه و تعیین میزان مشخصی واژه مهمترین این محدودیت‌ها است. نوع دیگری از بسامدها، بسامد نسبی نام دارد که بر اساس آن باید بسامد یک اصطلاح در یک مدرک نسبت به کل پایگاه، سطح قابل قبولی داشته باشد. نوع سوم بسامد بافتی است، در یک مدرک بخش‌های مهمی مانند عناوین، چکیده‌ها و عناوین موضوعی وجود دارند که از آنها می‌توان اصطلاحات و مفاهیم مهم مدرک را استخراج کرد و مبنای مناسبی برای تحلیل ماشینی هستند. در این بسامد فقط در بخش‌های مهم استخراج صورت می‌گیرد و بر اساس این بسامد یک سری وزن دهی نیز انجام می‌شود، یعنی اهمیت واژه‌ها با توجه به اینکه در کدام یک از این بخش‌های مهم قرار دارند، مشخص می‌شود.

طاهری درباره رویکرد دوم نمایه سازی اظهار داشت: نوع دوم، نمایه سازی تخصیصی خودکار نام دارد و در آن واژگان با اصطلاح‌نامه‌های مورد نظر تطاابق داده می‌شوند، در واقع واژگانی استخراج می‌شوند که در این اصطلاح‌نامه‌ها وجود دارند. ویژگی مثبت این روش این است که در آن وازگان به صورت خودکار کنترل می‌شوند و به وسیله آن یک دستی در جستجو به وجود می‌آید، یعنی با توجه به اینکه اساس آن اصطلاح‌نامه‌ها است بنابراین تمام منابع موجود بازیابی می‌شوند. مشکل این روش این است که واژه های اسم یا عبارت اسمی استخراج می‌شوند، در این صورت ممکن است واژگان اصلی در متن به صورت اشکال مختلفی آمده باشند و به این روش بازیابی نشوند. برای حل این مشکل استخراج را بر اساس ریشه کلمات در نظر گرفتند تا اصطلاحات بیشتری استخراج شوند.

عضو هیئت علمی دانشگاه علامه طباطبایی ادامه داد: این روش هم مشکلات مختلفی دارد، از جمله نداشتن عمق، حذف اصطلاحات جدید که در اصطلاح نامه وجود ندارند. برای حل این مشکلات بعد از انجام این نمایه، این نمایه‌ها توسط عامل انسانی چک می‌شوند. این روش در دنیا بسیار متداول است، به این دلیل که می‌تواند به نمایه سازی ماشینی بسیار نزدیک باشد.

طاهری در پایان این دورهمی درباره رویکرد سوم نیز گفت: رویکرد سوم نمایه‌های پایانی کتاب است. در این روش اصطلاحات نمایی پایانی کتاب استخراج می‌شود، سپس این اصطلاحات در پایگاه دیگر به عنوان نمایه مقلوب قرار می‌دهند. در واقع این روش مشابه نمایه‌های پایانی کتاب است و محل پایگاه هر اصطلاح را نشان می‌دهد. در این روش می‌توان هم به صورت آنلاین و هم به صورت آفلاین اصطلاحات را بازیابی کرد.