کد خبر: 50937
تاریخ انتشار: پنج‌شنبه, 31 اردیبهشت 1405 - 10:39

داخلی

»

مقاله های روز

از قواعد سنتی تا پردازش هوشمند داده‌های کتابخانه‌ای:

تحول فهرست‌نویسی در عصر هوش مصنوعی و پایتون

منبع : لیزنا
المیرا سفیان
تحول فهرست‌نویسی در عصر هوش مصنوعی و پایتون

لیزنا؛ المیرا سفیان، دانشجوی دکتری مدیریت اطلاعات دانشگاه تبریز و کارشناس ترویج کتابخوانی ستاد مرکزی نهاد کتابخانه های عمومی کشور: فهرست‌نویسی کتابخانه‌ای در طول یک قرن گذشته همواره بر قواعد انسانی، تفسیر کتابدار، تجربه شخصی و فرایندهای دستی استوار بوده است. این مدل سنتی با وجود کارآمدی تاریخی‌اش، اکنون با چالش‌هایی بنیادین روبه‌رو است؛ چالش‌هایی که نه از ضعف قواعد، بلکه از تغییر ماهیت داده‌ها، افزایش حجم منابع، و ورود فناوری‌های پردازشی نوین ناشی می‌شوند.

در دوره‌ای که کتابخانه‌ها با منابع دیجیتال، داده‌های چندزبانه، رکوردهای انبوه و گردش‌های اطلاعاتی پیچیده مواجه‌اند، دیگر نمی‌توان از فهرست‌نویسی انتظار داشت که صرفاً یک فرآیند دستی، خطی و انسانی باشد. این حوزه به نقطه‌ای رسیده که باید از «توصیف سنتی» عبور کرده و وارد قلمرو مهندسی داده و پردازش هوشمند اطلاعات شود.

در چنین فضایی، ظهور هوش مصنوعی و به‌ویژه زبان برنامه‌نویسی پایتون، فهرست‌نویسی را وارد مرحله‌ای کاملاً جدید کرده است؛ مرحله‌ای که در آن کتابدار نه تنها اجراکننده قواعد، بلکه طراح الگوریتم، تحلیلگر داده، و مدیر چرخه اطلاعات است. پایتون با قابلیت‌هایی همچون پردازش متن، استخراج داده، تحلیل ساختار رکوردها، تبدیل قالب‌ها و ارتباط با APIهای بین‌المللی، ابزارهایی در اختیار کتابخانه‌ها قرار داده که قدرتشان فراتر از هر نرم‌افزار سنتی فهرست‌نویسی است.

به این ترتیب، فهرست‌نویسی دیگر یک فعالیت صرفاً توصیفی نیست؛ بلکه شکلی از پردازش داده، مهندسی اطلاعات، تحلیل ماشینی و خودکارسازی هوشمند شده است.

در چنین شرایطی، مسئله اصلی ایجاد گرایش‌های آکادمیک تازه با عنوان‌هایی مانند «هوش مصنوعی در علم اطلاعات» نیست؛ زیرا تحول مورد نیاز، یک تغییر در ساختار نظری یا برنامه درسی کلان نیست.

آنچه واقعاً اهمیت دارد، «خانه‌تکانی ابزارها» و به‌روزرسانی مهارت‌های موجود است.

گرایش‌ها و چارچوب‌های علمی رشته همچنان معتبرند؛ اما ابزارها و شیوه‌های پیاده‌سازی آن‌ها باید به‌طور ریشه‌ای تغییر کنند.

پایتون و ابزارهای هوشمند آن دقیقاً همان ابزاری هستند که این نوسازی را ممکن می‌سازند.

این زبان، نه به دنبال حذف قواعدی چون AACR2 یا RDA است، و نه جایگزینی برای MARC یا Dublin Core محسوب می‌شود.

بلکه رابط هوشمند میان قواعد سنتی و نیازهای مدرن داده‌محور است.

پایتون می‌تواند قواعد توصیف را بهتر اجرا کند، کیفیت رکوردها را افزایش دهد، یکپارچگی داده‌ها را تضمین کند و از همه مهم‌تر، فهرست‌نویسی را از یک کار پیوسته‌ی انسانی به یک فرآیند پویا، چابک، مقیاس‌پذیر و قابل تحلیل تبدیل سازد.

این تحول، یک تغییر پارادایمی اساسی است:

از «فهرست‌نویسی به‌عنوان توصیف»

به «فهرست‌نویسی به‌عنوان پردازش داده».

در چنین پارادایمی، کتابدار نه تنها تسهیل‌گر دسترسی به اطلاعات است، بلکه مهندس داده‌هایی است که کتابخانه بر پایه آن‌ها کار می‌کند. آینده فهرست‌نویسی، آینده‌ای است که در آن انسان + ماشین در کنار یکدیگر بهترین و هوشمندترین خروجی را ارائه می‌دهند.

قالب‌های رکورد: از ساختارهای ثابت تا فرمت‌های زنده

فرمت‌هایی مانند21 MARC، MARCXML، MODS و Dublin Core سال‌ها ستون فهرست‌نویسی بودند؛ اما ویرایش دشوار، تبدیل پیچیده و استخراج محدود، آن‌ها را برای دوره‌ی داده‌محور امروز ناکارآمد کرده بود.

پایتون با کتابخانه‌هایی مثل PyMARC، lxml و rdflib رکوردها را از فایل‌های ایستای قدیمی به داده‌های پویا، قابل تبدیل، قابل استخراج و مناسب هوش مصنوعی تبدیل کرد.

اکنون کتابخانه‌ها می‌توانند:

  • رکوردها را گروهی اصلاح کنند
  • آن‌ها را به JSON یا BIBFRAME تبدیل کنند
  • داده‌ها را برای یادگیری ماشین آماده کنند

کاری که قبلاً روزها طول می‌کشید، حالا با یک اسکریپت چندخطی در چند ثانیه انجام می‌شود. 

 

 گذار به وب معنایی و BIBFRAME: ورود داده‌ها به جهان RDF

کتابخانه‌ها اکنون نیاز دارند رکوردهایشان در قالب‌های معنایی (Semantic) مانند BIBFRAME، RDF و Linked Data منتشر شوند. پایتون با rdflib این کار را ساده و استاندارد کرده است.

نمونه زیر ساخت یک رکورد BIBFRAME بسیار ساده را نشان می‌دهد:

 

اتصال مدل FRBR به پایتون و پردازش داده‌های کتابخانه‌ای

مدل مفهومی FRBR زمانی بیشترین اثربخشی را دارد که بتوان ارتباط میان سطوح چهارگانه آن یعنی اثر (Work)، بیان (Expression)، تجلی (Manifestation) و نسخه (Item) را به‌صورت خودکار و ماشینی تحلیل و مدیریت کرد. در شیوه‌های سنتی فهرست‌نویسی، تحقق کامل چنین ساختاری دشوار بود؛ زیرا اطلاعات کتابشناختی عمدتاً در قالب رکوردهای خطی و در فرمت‌هایی مانند MARC ذخیره می‌شدند و امکان تحلیل رابطه‌ای میان اجزای مختلف آن‌ها محدود بود.

با گسترش ابزارهای برنامه‌نویسی و به‌ویژه زبان پایتون، شرایط تغییر کرده است. پایتون این امکان را فراهم می‌کند که داده‌های کتابشناختی استخراج، تحلیل و بازساخت شوند و ساختار مفهومی FRBR به شکل مدل‌های داده‌ای قابل پردازش پیاده‌سازی گردد. از طریق این زبان می‌توان اطلاعات موجود در رکوردها را بررسی کرد، موجودیت‌های مرتبط با هر سطح FRBR را شناسایی نمود و سپس ارتباط میان آن‌ها را در قالب گراف‌های داده‌ای یا ساختارهای مبتنی بر RDF سازمان‌دهی کرد. این رویکرد امکان مدیریت دقیق‌تر روابط میان آثار، بیان‌ها، انتشارات و نسخه‌های مختلف را فراهم می‌کند و زمینه را برای تحلیل پیشرفته داده‌های کتابخانه‌ای مهیا می‌سازد.

پیوند FRBR با BIBFRAME

گذار از MARC به BIBFRAME تنها یک تغییر قالب نیست؛ بلکه بازتفسیر مفهومی مدل‌های توصیفی نیز در آن نقش اساسی دارد. در مدل FRBR، سه سطح بنیادی Work، Expression و Manifestation برای نمایش سلسله‌مراتب اندیشه تا نمود مادی اثر تعریف شده‌اند. BIBFRAME در رویکردی ساده‌سازی‌شده اما هم‌زمان سازگار با وب معنایی، این ساختار را فشرده کرده و دو سطح Work و Instance را جایگزین سه‌لایه FRBR می‌کند. در این نگاشت، FRBR Expression معمولاً در لایه Work یا Instance ادغام می‌شود و Manifestation به‌صورت مستقیم با Instance متناظر می‌گردد.

در جریان این بازتعبیر، پایتون — به‌ویژه همراه با کتابخانه rdflib — ابزار ایده‌آلی برای خودکارسازی تبدیل MARC → BIBFRAME محسوب می‌شود. با استفاده از rdflib می‌توان عناصر توصیفی MARC را به سهولت در یک گراف RDF مدل کرد، نگاشت‌های FRBR→BIBFRAME را اعمال نمود و خروجی را به‌صورت داده Linked Data منتشر کرد.

نتیجه آن است که یک رکورد MARC سنتی، تنها با چند خط کد پایتون، به یک گراف معنایی استاندارد و قابل‌استفاده در اکوسیستم داده‌های پیوندی تبدیل می‌شود؛ گامی کلیدی در نوسازی زیرساخت‌های کتابخانه‌ای و حرکت به‌سوی تعامل‌پذیری داده‌ها.

 

تبدیل سرعنوان‌های موضوعی فارسی به داده‌های پیوندی: رویکردی مبتنی بر پایتون و RDF

تبدیل سرعنوان‌های موضوعی فارسی به داده‌های پیوندی مستلزم یک چارچوب فنی و مفهومی است که بتواند داده‌های واژگانی موجود را به ساختارهای سازگار با وب معنایی تبدیل کند. در این چارچوب، ابتدا سرعنوان‌ها از منبع اصلی (مانند فایل‌های MARC، پایگاه‌های داده کتابخانه‌ای یا فایل‌های متنی) استخراج می‌شوند. سپس عناصر اصلی هر سرعنوان مانند اصطلاح ترجیحی، اصطلاحات وابسته، روابط اعم و اخص و شناسه‌ها شناسایی و به مدل‌های استاندارد وب معنایی ــ به‌ویژه SKOS (Simple Knowledge Organization System) ــ نگاشت می‌شوند.

در مرحله بعد، با استفاده از زبان پایتون و کتابخانه‌هایی مانند rdflib، این عناصر به یک گراف RDF تبدیل می‌شوند. در این گراف، هر سرعنوان به‌صورت یک مفهوم (skos:Concept) با یک شناسه یکتا تعریف می‌شود و روابط معنایی آن با دیگر مفاهیم از طریق ویژگی‌هایی مانند skos:prefLabel، skos:altLabel، skos:broader و skos:narrower مدل‌سازی می‌گردد. پس از تولید گراف RDF، داده‌ها در قالب‌هایی مانند Turtle یا JSON‑LD منتشر می‌شوند و می‌توان آن‌ها را در یک endpoint SPARQL یا یک مخزن داده پیوندی قرار داد تا قابلیت بازیابی، پیوند با واژگان بین‌المللی (مانند LCSH) و استفاده در محیط‌های کتابخانه دیجیتال فراهم شود. این چارچوب امکان می‌دهد که سرعنوان‌های موضوعی فارسی از یک فهرست واژگانی سنتی به یک منبع معنایی قابل پیوند در اکوسیستم Linked Data تبدیل شوند.

 

ارتباط LLAM با فهرست‌نویسی کتابخانه‌ای

 مدل‌های بزرگ زبان (LLAM) به عنوان ابزارهای پیشرفته در پردازش زبان طبیعی، نقش مهمی در تحول فهرست‌نویسی کتابخانه‌ای ایفا می‌کنند. این مدل‌ها قادرند به صورت خودکار و دقیق اطلاعات کلیدی مانند عنوان، نویسنده، موضوع و چکیده را از متون استخراج کرده و به فرمت‌های معنایی مانند BIBFRAME تبدیل کنند. با بهره‌گیری از LLAM، فرآیند فهرست‌نویسی که پیش‌تر زمان‌بر و نیازمند دخالت انسانی گسترده بود، به صورت هوشمند و سریع انجام می‌شود، خطاهای انسانی کاهش یافته و کیفیت داده‌های کتابخانه‌ای بهبود می‌یابد. علاوه بر این، توانایی این مدل‌ها در درک زبان‌های مختلف، از جمله فارسی، امکان توسعه سیستم‌های فهرست‌نویسی چندزبانه و سازگار با استانداردهای جهانی را فراهم می‌سازد.

 

نتیجه‌گیری:

آینده فهرست‌نویسی در عصر هوش مصنوعی، پایتون و مدل‌های بزرگ زبانی، نه صرفاً تغییر ابزار بلکه دگرگونی عمیق در هویت و نقش حرفه‌ای کتابداران است. فهرست‌نویسی دیگر تنها مجموعه‌ای از قواعد توصیف و استانداردسازی نیست، بلکه تبدیل به یک فرایند هوشمند، داده‌محور و تحلیلی شده که نیازمند ترکیب دانش کتابداری با مهارت‌های فنی و فهم فناوری‌های نوین است. رشته علم اطلاعات با ماهیت میان‌رشته‌ای خود ظرفیت آن را دارد که بدون ایجاد گرایش‌های جدید، این تحول را در دل خود جذب کند؛ به شرط آنکه آموزش‌های آن به‌روز شود، مهارت‌های برنامه‌نویسی و تحلیل داده جایگاه واقعی پیدا کنند، و دانشجویان برای کار با ابزارهایی مانند پایتون، RDF، BIBFRAME و مدل‌های زبانی بزرگ آماده شوند. نمونه‌های عملی کدنویسی به‌خوبی نشان می‌دهد که هوش مصنوعی می‌تواند بسیاری از بخش‌های فرایند فهرست‌نویسی را خودکار، دقیق و قابل گسترش سازد و کتابداران را از انجام کارهای تکراری رها کرده و به نقش‌های بالاتر مانند مهندسی داده، تحلیل‌گری دانش و طراحی سیستم‌های هوشمند سوق دهد. بنابراین، آینده این حوزه نه در گسترش ساختاری رشته، بلکه در بازنگری محتوای درسی، تقویت مهارت‌های فنی، و توانمندسازی کتابداران برای کار در زیست‌بوم جدید داده‌های پیوندی و وب معنایی است. چنین رویکردی، مسیر واقعی تحول حرفه‌ای و ارتقای نقش کتابداران در عصر دانش ماشینی را فراهم می‌کند.

 ------------------------------------------

منابع

فرچ پهلو,عبدالحسین , کوکبی,مرتضی , فتاحی,رحمت الله و حاجی زین العابدینی,محسن . (1389). ملزومات کارکردی داده‌های مستند (فراد): الگوی مفهومی رابطه ـ موجودیت مستندات در پیشینه‌های کتابشناختی. کتابداری و اطلاع‌رسانی13(4), 233-260.

Sabbaghi Bidgoli, Z., Sharif, A., & Zandian, F. (2023). A framework for transforming the Persian subject headings into linked data. Journal of Knowledge Retrieval and Semantic Systems, 10(37), 1–30. https://doi.org/10.22054/JKS.2023.72538.1565

Maktabkhooneh. (n.d.). Taxonomy and thesaurus development using SKOS. Retrieved April 28, 2026, from https://maktabkhooneh.org/mag/پردازش-کلان-داده-در-پایتون/

PyMARC developers. (n.d.). PyMARC documentation. Retrieved April 28, 2026, from https://pymarc.readthedocs.io/

rdflib developers. (n.d.). rdflib documentation. Retrieved April 28, 2026, from https://rdflib.readthedocs.io/en/stable/