کد خبر: 17728
تاریخ انتشار: دوشنبه, 24 آذر 1393 - 11:06

داخلی

»

مطالب کتابداری

»

سخن هفته

نمایه سازی ماشینی از تصور تا عمل

  سید ابراهیم عمرانی
نمایه سازی ماشینی از تصور تا عمل

 لیزنا، سید ابراهیم عمرانی، سردبیر. پرانتز: یکی از همکاران گرامی به بنده انتقاد کردند که نوشته هایت طولانی است و بیشتر خوانندگان حوصله نمی کنند تا آخر بخوانند. البته بنده هم وعده دادم که هر زمان ما به جای پایگاه خبری به عنوان یک مجله عمل کنیم و ستونهای مختلف داشته باشیم، احتمالا نیاز نیست که هر یک یا دو هفته  یک بار  این همه پرحرفی کنم ولی از همین شماره هم تلاش خودم را می کنم که مطلب کوتاه تر شود.

 

و اما در مورد مطلب این شماره.

 

سالها است با رایانه کارها در تماس مستقیم و نزدیک هستیم و داد و ستدهای فراوانی بین ما کتابداران و آقایان مهندسین رایانه (بیشتر نرم افزار)، انجام گرفته و من خود، بسیار از این دوستان آموخته ام و هنوز هم در کارهای مشترک دارم می آموزم. از آن سو رایانه کارهایی که در حوزه ما استخوان خرد کرده اند، لابد دیده اند که کارهای مشترک بهتر از کار در آمده، البته به شرطی که مشاور کتابدار خود را از روی مدرک انتخاب نکرده باشند و فرضا اگر نرم افزار فهرستنویسی می نویسند، یک فهرستنویس کهنه کار و آشنا به مفاهیم نظری فهرستنویسی را بکار بگیرند نه یک دکتری کتابداری تازه فارغ التحصیل که هیچوقت در این زمینه (البته جز کارورزی در دوره کارشناسی) تجربه کافی ندارد. از سوی دیگر، مشاور ایشان  فهرستنویس زحمت کشی باشد که همه انرژی خود را می گذارد و کارش هم بیشتر با  جستجو در کتابخانه ملی و کتابخانه کنگره و ورلد کت می گذرد و در نهایت  می تواند شماره رده بندی هم بدهد که این هم جوابگوی طراحی نرم افزار نیست. نمونه های خوبی از همکاریهای بین نرم افزار نویسان خبره و کتابداران خبره در کشور در پروژه های مشترک داریم. بنا براین توصیه می کنم شرکتهایی هم که تازه وارد عرصه حرفه و رشته ما (کتابداری و اطلاع رسانی و علم اطلاعات و دانش شناسی)  شده اند بهتر است بگردند و کتابداری  را بیایند که  در کار خود تجربه زیاد و تسلط بر مبانی نظری  دارد. از این طرف ما هم اگر می خواهیم کار را به رایانه کاران بسپاریم، نیاز به کسی داریم که در کار ما تجربه کافی داشته باشد و کار ما را بشناسد. در این بیست و شش سالی که بسته های نرم افزاری به کتابخانه ها سرازیر شده، هر سال با نرم افزار نویس جدیدی روبرو شده ایم و هر بار مدتی طول کشیده تا طرف بفهمد قرار است برای ما نرم افزار بنویسد نه برای خودش. و قرار است نرم افزارش ساز و کارهای ما را پشتیبانی کند، نه اینکه نرم افزار او ساز و کار جدیدی برای ما و به دور از استانداردهای ما بنویسد.

 

شاید تقصیر حرفه و رشته ما است که همیشه با گردن کج خودش را معرفی می کند  و آنهایی که با گردن بالا کنار ما می نشینند به سرعت احساس می کنند که  این کتابدارها که کامپیوتر و نرم افزار سرشان نمی شود و این مائیم که تصمیم می گیریم برای آنها چه بنویسیم و آنها چگونه کارهای خودشان را با نرم افزار ما باید انجام دهند. و اگر ادعا بزنیم که نرم افزار ما همه اینهایی که شما می گوئید انجام می دهد، کتابداران توان آزمایش آن را ندارند و بنابراین می پذیرند.

 

در شروع بیست و هفتمین سال ورود بسته های نرم افزاری و نرم افزار نویسان گرامی و بسته فروشان عزیز چشمم به بیست و هفتمین مدعی جدی نرم افزاری روشن شد که احتمالا چون برنامه ریزی کرده بود که وارد شود و از نمد کتابخانه ها و کتابداری کلاهی برای خودش درست کند، شاید تا به حال سراغ شما هم آمده باشد و بقیه هم احتمالا آرام آرام با او آشنا شوید. احتمالا ایشان با ادعای نمایه سازی ماشینی به میدان خواهد آمد و اینکه نرم افزارش بطور خودکار همه اسناد شما را نمایه سازی ماشینی خواهد کرد و شما بی نیاز از اصطلاحنامه ها و کتابداران خواهید بود و نیز هزینه هایتان کاهش خواهد یافت.

 

 من قول دادم که حتما و با حوصله برنامه اش را ببینم ولی با توجه به  ادعای ایشان یعنی نمایه سازی 97.5% و بالا تر، نیازی به  بررسی نداشته باشد چون در بهترین حالات، معروفترین  پایگاههایی که ماشین واژه های آنها را الفبایی و آماده جستجو می کند و نمایه سازی دستی با استفاده از تزاروس به هیچ وجه جایی در کار آنها ندارد، در مقایسه با نمایه سازی انسانی (البته منظور من نمایه سازی انسانی دقیق حرفه ای با استفاده از متخصص است، نه کارهای ضعیفی که به نام نمایه سازی انجام می شود)، بیش از 60 تا 65 درصد کیفیت گزارش نشده است. در ایران هم دو پایان نامه هست که یکی پایان نامه های کتابخانه ملی را کار کرده (به راهنمایی دکتر فریبرز خسروی) و دیگری روی پایان نامه های ایرانداک و به راهنمایی محسن نوکاریزی)، هر دو زیر 65% کیفیت در مقایسه بین این دو شیوه گزارش کرده اند.

 

مساله ای را که این دوست تازه از گرد راه رسیده طرح کردند، یعنی نمایه سازی  ماشینی در بدو ورود من به ایرانداک یعنی سه سال پیش،  به شکلی دیگر مطرح و در دست مطالعه بود. مدیریت مرکز،  نمایه سازی پایان نامه های جدید را متوقف کرده بودند . کارهای قدیمی را به روز می رساندند و اعتقاد داشتند پایان نامه هایی که از نظام ثبتی می آید و فایل ورد آن را هم داریم امکان اینکه بتوانیم راه حلهای ماشینی برای آنها بیابیم هست. پس در آن زمان من اینطور فهمیدم که قرار است پایان نامه های قدیمی را تمام کنیم و روی  راه حل ماشینی برای پایان نامه های جدید کار کنیم.

 

تا من در مرکز بودم و خودم موضوع را دنبال می کردم (در آن شرایط بی پولی مرکز)،  چند پایان نامه دانشجویی به عنوان تحقیق تعریف شد که به نظرم بد نبود. دو پایان نامه در دانشکده فنی دانشگاه تهران به راهنمایی  دکتر فاطمی تعریف شد و یک پایان نامه هم توسط دکتر علیپور در دانشگاه علامه طباطبایی و در گروه کتابداری  دفاع شد که هر سه کارهای به نسبت موفقی بودند و اجازه می دادند که  با امکانات واقعی موجود، خود را بسنجیم و ببینیم وسع و توانمان چیست.

 

در پایان نامه کتابداری دانشگاه علامه (نگاشت نقشه علمی علوم کتابداری و اطلاع رسانی ایران بر اساس پایان نامه های موجود در پایگاه پایان نامه های پژوهشگاه علوم و فناوری اطلاعات ایران نگارش خانم جبرئیل زاده) علاوه بر استاد راهنمای  کتابدار، یک  /نرم افزار نویس / فناور اطلاعات هم برنامه ای برای یادگیری ماشین[1] نوشت، من هم به عنوان کارشناس، داده های لازم برای یاد دادن به ماشین را با نمایه سازی دستی و با استفاده از کدهای LISTA آماده کردم. این کار روی پایان نامه های حوزه کتابداری و اطلاع رسانی انجام شد. 500 پایان نامه تا حد توان دقیق نمایه شد، و اینها توسط استاد جلالی منش برای یادگیری به ماشین داده شد و ماشین 1500 پایان نامه دیگر را خود و بر اساس این الگو نمایه سازی کرد. استاد جلالی منش که برنامه آموزش ماشین را نوشته بود، معتقد بود که برنامه موفقیت به نسبت خوبی داشته و یافته ها بیش از 70% موفقیت نشان می دهند ولی آن درصدها با صحبتهای این بزرگوار که امسال و تازه از راه رسیده اند خیلی متفاوت بود  و با توجه به نمونه های  دانشگاهی و تجربی بیرون از مرزهای ایران نیز باید عرض کنم که هنوز تا حصول نتیجه در نمایه سازی کاملا ماشینی فاصله زیادی داریم، و بنابراین نمی توان این ادعاها را به سادگی و بدون آزمونهای دقیق پذیرفت.

 

بر اساس تحقیقات مختلف هر واسپارگاه / پایگاه  در دنیا راه حلهایی بینابینی برای خود برگزیده و از نتایج تحقیقات، نرم افزار خود را به گونه ای اصلاح کرده که درصد موفقیت خود را بالا ببرد. برخی به نمایه مولف پناه برده اند و از برچسبهای اجتماعی دفاع می کنند که در بین کتابداران هم طرفدارانی دارد (البته فعلا اقلیت هستند)، برخی در نقطه مقابل کماکان نمایه سازی مبتنی بر تزاروس و صد در صد دستی را ادامه می دهند و عده ای هم بین این طیفها روشی برای خود در پیش گرفته اند که این مقال جای بحث و معرفی یکایک این روشها نیست.

 

ایرانداک در آن زمان (فاصله زمانی بین دو تا یک سال پیش)  بر اساس نتایج تحقیقات قبلی و از جمله پایان نامه بالا،  تغییراتی در نرم افزارهای خود را لازم دید. نرم افزار قبلی  ایرانداک در آن زمان این توان را داشت که واژه های موجود در فراداده ، از جمله چکیده را جستجو کند و البته هنوز هم جستجو از طریق این واژگان انجام می شود، با این توصیف که همواره و تا این لحظه بخشی از فراداده ایرانداک، کلیدواژه ها ی موضوعی مبتنی بر تزاروسها و اصطلاحنامه ها هستند. بعد از این پایان نامه، و استفاده از نتایج بررسیهای پیشین، که همزمان بود با تدوین نرم افزار جدید ایرانداک، پیش بینی کردیم که در حال حاضر و با توجه به حجم پایان نامه ها و مقالات ورودی، و کمبود نیروی متخصص، اگر امکان نمایه شدن فهرست مندرجات را نیز فراهم آوریم درصد موفقیت را باز هم بالاتر می بریم. بنابراین تصمیم در این مرحله این شد که در نرم افزار ثبت هم امکان جدیدی اضافه شد، به این معنا که دانشجو در زمان بارگذاری پایان نامه خود موظف است در کنار اطلاعاتی که وارد میکند و چکیده که بارگذاری می شود، فهرست مندرجات را نیز در فیلد جداگانه ای بارگذاری یا ورود اطلاعات کند.

 

ولی چون همانطور که قبلا نیز گفته شد، هنوز برای نمایه سازی کاملا ماشینی وقت بیشتری نیاز است، ما می توانیم به ماشین بگوئیم با همین میزان بین 60 تا 65% درصد (که حالا پیش بینی می کنیم که با اضافه شدن واژه های موجود در فهرست مندرجات به واژگان نمایه اصلی ایرانداک،  درصد موفقیت تا نزدیک 70% می تواند بالا برود) کلید واژه های موضوعی را پیشنهاد کن و آنها را دراختیار نمایه ساز قرار بده تا نمایه ساز به جای نمایه سازی بیشتر کار کنترل صحت و دقت را انجام دهد. با این کار در واقع سرعت کار نمایه ساز بالا خواهد رفت و امکان اینکه بتوان از یک مقطع زمانی با پایان نامه های تاریخ روز حرکت کرد به وجود خواهد آمد. به یاد داشته باشید که ورودی پایان نامه های ایرانداک در حال حاضر به 500 پایان نامه  در روز نزدیک می شود، که با بودجه و نیروی انسانی موجود، امکان نمایه کردن به روز همه ورودی موجود نیست و در واقع هر روز می تواند به حجم پایان نامه های کار نشده اضافه شود. به این ترتیب از زمانی که این شیوه کامل وتجربه شود می توان کارهای گذشته را جدا کرد و کار را به روز پیش برد و روی پایان نامه های قدیمی هم برنامه ریزی کرد و آن را با تیمی جداگانه به روز کرد.

 

پیشنهاد کلید واژه به نمایه ساز، و کنترل صحت، دقت و کیفیت کلید واژه های پیشنهادی علل مختلفی دارد که شاید نیاز به بررسی همه جانبه تری داشته باشد ولی در این مختصر می توانم این نکته را عرض کنم که حجم نمونه ای که برای آموزش ماشین می سازید، در ابتدا که اتفاقی است ولی بعد از مدتی اگر کلید واژه های بعدی که ماشین به نمایه ساز پیشنهاد می دهد مورد تایید قرار بگیرد، باز هم ماشین عکس العملهای بهتری نشان خواهد داد ولی همواره به یادمان باشد که ماشین هر روز با موضوعهای جدیدی روبرو می شود که با آنها مشکل خواهد داشت، چرا که موضوع جدید و واژه های جدید در حجم نمونه برنامه آموزش ماشین نبوده، و ماشین نسبت به آن عکس العمل نشان نخواهد داد و به همین دلیل نیاز است که انسان کار ماشین را کنترل کند و آن را بر اساس تزاروس تصحیح کند و وازه های جدید را نیز برای ورود به مجموعه تزاروسها پیشنهاد بدهد.

 

در پایان ضمن سپاس و احترام به کوشش همه رایانه کاران که سرمایه، وقت و دانش خود را به رشته ما می آورند، از کتابداران و همه اهل حرفه انتظار می رود در انتخاب نرم افزارهای مورد نیاز خود با مطالعه تصمیم بگیرند. به این ترتیب رایانه کارانی که قرار است بمانند و با کتابداران همکاری کنند، می مانند و باز هم کارهای بهتر و زیباتری برای کتابخانه ها انجام خواهند داد  و رایانه کارانی که امکان سود صرف به هر حوزه ای می کشاندشان، به راه خود خواهند رفت و حتما خوشبخت خواهند شد.

 

عمرانی، ابراهیم. « نمایه سازی ماشینی از تصور تا عمل». سخن هفته لیزنا، شماره 213. 24 آذر 1393.



[1].Machin Learning

 

 

 

برچسب ها :
عباسی
|
Iran
|
1393/09/25 - 12:22
0
1
البته استادان آی تی معتقدند که نمایه سازی ماشینی الآن دیگر عملی شده و مثال گوگل و امثال آن را می زنند. راستش کمی گیج کننده شده.
ع. لفطه
|
Iran
|
1393/09/24 - 14:55
1
1
سپاس آقای عمرانی
البته هر شرکتی هر ادعایی که دوست دارد می تواند داشته باشد در این میان ما کتابداران هستیم که می بایست با دانش و تجربه دست به انتخاب بهتر بزنیم.
خواهشمند است جهت تسهیل ارتباط خود با لیزنا، در هنگام ارسال پیام نکات ذیل را در نظر داشته باشید:
۱. از توهین به افراد، قومیت‌ها و نژاد‌ها خودداری کرده و از تمسخر دیگران بپرهیزید و از اتهام‌زنی به دیگران خودداری نمائید.
۲.از آنجا که پیام‌ها با نام شما منتشر خواهد شد، بهتر است با ارسال نام واقعی و ایمیل خود لیزنا را در شکل دهی بهتر بحث یاری نمایید.
۳. از به کار بردن نام افراد (حقیقی یا حقوقی)، سازمان‌ها، نهادهای عمومی و خصوصی خودداری فرمائید.
۴. از ارسال پیام های تکراری که دیگر مخاطبان آن را ارسال کرده اند خودداری نمائید.
۵. حتی الامکان از ارسال مطالب با زبانی غیر از فارسی خودداری نمائید.
نام:
ایمیل:
* نظر: