کد خبر: 41316
تاریخ انتشار: شنبه, 10 اسفند 1398 - 01:37

داخلی

»

گزارش

امکان تجزیه و تحلیل مقالات علمی فارسی توسط ژرفای دانش

منبع : لیزنا
دکتر عبدالصمد کرامت‌فر، از تجربه ملی خود تحت عنوان «ژرفای دانش» در پنل سوم سومین همایش ملی کتابخانه‌های دیجیتالی دانشگاه علامه طباطبایی سخن گفت.
امکان تجزیه و تحلیل مقالات علمی فارسی توسط ژرفای دانش

به گزارش لیزنا، دکتر عبدالصمد کرامت‌فر، دکتری آی تی دانشگاه قم و مسئول اداره تحلیل داده مرکز اطلاعات علمی جهاد دانشگاهی، تجربه ملی خود را تحت عنوان «ژرفای دانش» با همراهی محدثه رفیعی خشنود در پنل سوم سومین همایش ملی کتابخانه‌های دیجیتالی: پردازش و سازماندهی اطلاعات و دانش دانشگاه علامه طباطبایی ارائه کرد.

کرامت‌فر در ابتدا گفت: کاری که ما انجام دادیم به صورت تجربه است. سیستمی را طراحی کردیم که یک مقدار هم با همین صحبت‌های دکتر فتاحی هماهنگ است. درواقع کاری که ما انجام دادیم اس آی دی است، احتمالاً بزرگواران حاضر، سیستم را می‌شناسند. تقریباً 15-16 سال است که تمام مقالات علمی پژوهشی کشور در بانک مقالات ما نمایه می‌شود. تلاش کردیم که فنون جدید اِی آی را به نحوی در این داده پیدا کنیم و سعی کنیم با هر رویکردی که می‌توانیم به کشف دانش و تولید خودکار دانش بپردازیم. یک کارهایی ما انجام دادیم. بعضی از این کارهایی هم که اینجا آمده است، مقالاتش هم نوشته شد. چیزی که فعلاً داریم، نسخه بتا است. داده و فراداده تمام مقالات علمی را ما تحلیل کردیم. کاری که شما می‌توانید انجام دهید این است که اینجا بیایید و یک موضوع علمی را جستجو کنید. مثلاً فکر کنم برای امروز بحث مدیریت دانش مناسب باشد یا بحث کتابخانه‌های دیجیتال. ما اینجا فقط یک جستجوی نرمال SQL ای داریم. موضوعاتی که ما اینجا داریم، موضوعاتی هستند که به عنوان کلیدواژه در مقالات علمی آمده‌اند. برای فازهای بعدی قصد توسعه‌اش را داریم. ولی فعلاً فقط کلیدواژه‌های مقالات علمی تحلیل شده‌اند. چیزی که شما در صفحه Mining دارید، یک تعریفی از ویکی‌پدیا  در حوزه مدیریت دانش دارید که بیشتر می‌توانید کاوش کنید.  

وی افزود: اولین تحلیلی که فراهم کردیم میزان استفاده کلیدواژه‌های معادل در مقالات علمی است. مثلاً شما یک موضوع علمی را که دارید کار می‌کنید، مثلاً بحث داده‌های بزرگ که کلی ترجمه فارسی برایش آمده است؛ ما اینجا نشان می‌دهیم که کدام کلیدواژه بیشتر استفاده شده است. به طور مثال در حوزه مدیریت دانش 297 مقاله توانستیم پیدا کنیم کهKnowledge Management  یا مخفف آن KM، مدیریت دانش ترجمه شده است. بعضی جاها این خیلی کمک می‌کند. یک سری از کلمات تخصصی هستند که بهتر است ما همان مصطلح‌تر را استفاده کنیم. همانی که پذیرفته‌تر است.

هم‌چنین گفت: تحلیل دیگری که در این موضوع داریم، توزیع این موضوع در مقالات علمی رشته‌های مختلف است. این دسته‌بندی که ما اینجا داریم، دسته‌بندی وزارت علوم است. 69-70 تا دسته‌بندی موضوعی دارد، براساس همان ما آن کلیدواژه را در حوزه‌های موضوعی مختلف پخش کردیم. شما می‌بینید 255 تا از مقالات که فکر کنم 49.4% شوند؛ در حوزه مدیریت بودند و در این قسمت هم علوم تربیتی و اینجا هم فکر می‌کنم کتابداری باشد که 51 مقاله در این حوزه داشت. روند انتشار مقالات را داریم. در هر صورت شما وقتی که می‌خواهید در یک  حوزه علمی کار کنید، مهم است که بدانید که آن حوزه، حوزه‌ای است که دارد رشد می‌کند یا اینکه حوزه قدیمی یا منسوخ شده است. شبیه چیزی که در گوگل ترند ارائه می‌شود؛ ولی اینجا برای مقالات علمی است. برای انتخاب موضوع می‌تواند مفید باشد.

توضیح دیگری که ما اینجا داریم، بحث مجلاتی است که بیشترین مقالات را در این زمینه چاپ کرده‌اند. الان ما در بحث مدیریت دانش می‌بینیم که این ژورنال رشد فناوری و مدیریت فناوری اطلاعات بیشترین مقالات را چاپ کرده‌اند. که حالا یکی از کاربردهایی که این دارد برای انتخاب مجله می‌تواند مفید باشد.

مورد دیگری که داریم بحث رتبه‌بندی دانشگاه‌ها است. که باز این فقط دانشگاه‌های وزرات علوم است. که می‌بینیم در این زمینه مدیریت دانش کدام دانشگاه، به چه میزان کار کردند. در هر موضوعی دسترسی به این رتبه‌بندی را می‌توانید داشته باشید.

کار دیگری که انجام شده است ما درواقع در هر رشته‌ای، آن رشته‌هایی که من گفتم دسته‌بندی وزارت علوم است. این کلیدواژه‌ها موضوعات علمی را یک جوری آورده‌ایم و میانگین تازگی این‌ها را حساب کردیم. کاری که انجام شده است این است که برای هر کلیدواژه در تمام مقالاتی که آن کلیدواژه را استفاده کردند، سالشان محاسبه شده است و سپس یک میانگین از این سال انتشارها گرفته شده است. بعد از اینکه این کار انجام شد تمام کلیدواژه‌های آن رشته، کوآرتربندی شدند و نتیجه‌ای یک Q شده است که ما اینجا داریم. شما می‌توانید ببینید این رشته‌هایی که Q1 خورده‌اند، یعنی اینکه این کلیدواژه مدیریت دانش برای این‌ها جدید است. برای این موضوعات مثلاً در رشته حسابداری قدیمی‌تر است.

کرامت‌فر تصریح کرد: یک کار دیگری که ما انجام دادیم، حالا مرتبط با بحثی که بیشتر صورت گرفت که هستی‌شناسی است؛ یک گراف دانش ایجاد کردیم که این به صورت خودکار خود سیستمان یاد گرفته است و کاری که انجام می‌دهد این است که توانسته است به ازای هر موضوعی که اینجا موضوع مدیریت دانش است؛ مرتبط‌ترین موضوعاتی که وجود دارد را شناسایی کند و اینجا به شما نشان می‌دهد که میزان ارتباطش چقدر است. لیست کاملش هم موجود است. درواقع محدود به این نیست. اینجا 25 تایش را نمایش دادیم. 25 تا موضوعی که بیشترین ارتباط را دارند. تحلیل‌هایی که در بخش موضوعات داریم فعلاً این است، در قسمت رشته‌ها هم یک کارهایی را انجام دادیم.  

وی در ادامه گفت: مثلاً در صفحه رشته، رشته فیزیک را انتخاب می‌کنیم. موضوعات علمی با Q هایشان وجود دارند. در رشته فیزیک الان می‌توانید متوجه شوید که کدام موضوعات اکنون جدیدتر هستند و کدام موضوعات، موضوعاتی هستند که اکنون به نوعی منسوخ شده‌اند. می‌توانید به جستجوی گوگل اسکالر دسترسی داشته باشید و باز به همان صفحه کاوش موضوع که شما می‌توانید موضوع را کاوش کنید و تعدادش را ببینید. این لیست تا موضوعات Q4 ادامه دارد. بعد از این هم یک لیست دیگری داریم که برای همین رشته شما می‌توانید مجلات را داشته باشید به اضافه تعداد مقالاتی که در این زمینه چاپ شده است. یک کاوشی هم روی هر کدام از مجلاتی که در این زمینه کار کردند؛ وجود دارد.

کرامت‌فر گفت: ما چند شاخص جدید هم درآوردیم، باز براساس تحلیل‌هایی هم که انجام شده است؛ استخراج شده منتها هنوز آنلاین نشده است. ولی فعلاً چیزی که وجود دارد تعداد مقالات را می‌توانید ببینید، ترندش را می‌توانید بیینید که چقدر کار کرده است و ابر واژگانی که از مقالاتی که در این نشریه چاپ شده است، استخراج شده است.

وی افزود: در طی یک جمع‌بندی می‌توان گفت که برای اولین بار با استفاده از داده علمی فارسی، پردازش اطلاعات صورت گرفته و امکان تجزیه و تحلیل مقالات علمی فارسی انجام شده است. در این پایگاه داده بر اساس حوزه‌های موضوعی وزارت علوم، دسته بندی صورت گرفته و امکان جستجوی تخصصی موضوعات به وجود آمده است. می‌توان در این پایگاه به تازگی حوزه‌های موضوعی دست یافت و میزان ارتباط آن با دیگر حوزه‌ها را مشاهده کرد. ژرفای دانش، به معرفی موضوعات داغ فارسی پرداخته است.

به عبارت دیگر با توجه به نیاز کشور برای تجزیه و تحلیل اطلاعات مقالات فارسی برای اولین بار این امکان به وسیله پایگاه ژرفا انجام شد. ژرفا با استفاده از تحلیل دادگان مقالات فارسی مرکز اطلاعات علمی جهاد دانشگاهی، برای اولین بار متن کاوی روی مقالات فارسی انجام شد. ژرفای دانش از نظر شباهت به پایگاه سای ول نزدیک است. این پایگاه در قسمت جستجو به ارائه تعریف اصطلاح از ویکی پدیا، معادل انگلیسی، توزیع مقالات در رشته های مختلف، روند انتشار مقالات، توزیع مقالات در مجلات مختلف، توزیع دانشگاه‌ها، میزان تازگی کلمات کلیدی و مرتبط‌ترین موضوعات می‌پردازد.

با کلیک روی حوزه‌های موضوعی که بر اساس وزارت علوم هستند، می‌توان به اطلاعاتی مثل تعداد مدارک علمی در پایگاه مرکز اطلاعات علمی، میانگین سال انتشار مقالات، کلمات کلیدی به کار رفته در مقالات آن حوزه و میزان تازگی آنها، کاوش در موضوع، مقالات در مرکز اطلاعات علمی و پایگاه اسکالر و مجلاتی که بیش‌ترین تعداد مقاله را در آن حوزه موضوعی منتشر کرده‌اند، دست یافت.

با جستجو در این پایگاه می‌توانید به اطلاعاتی مثل: تعریف کلمه در ویکی پدیا، معادل انگلیسی کلمه جستجو شده و میزان تکرار آن، توزیع مقالات این موضوع در رشته های مختلف، روند انتشار مقالات در سال‌های مختلف، توزیع مجلات در حوزه مورد نظر، دانشگاه‌هایی که بیش‌ترین تعداد مدارک علمی در آن حوزه موضوعی را منتشر کرده‌اند، تازگی حوزه موضوعی و دسترسی به گراف حوزه‌های موضوعی و میزان ارتباط آن با کلمه یا موضوع جستجو شده را ملاحظه کرد.

پيش از آغاز پروژه گام‌های زیر صورت گرفت:

تمیز کردن داده (Data cleaning)

برچسب گذاری روی داده  (Labeled data)

دسته‌بندی داده (data clustering)

تجزیه و تحلیل داده (data analytics)

آماده سازی برای نمایش در وب سایت

در حين اجراي پروژه سعی شد که چالش مشکلات زبان فارسی حل شود و پیش بینی می‌شود که این پروژه بتواند بخشی از مشکلات مالی مرکز اطلاعات علمی را حل کند. تا کنون هیچ تجزیه و تحلیلی روی مقالات فارسی صورت نگرفته است، ژرفا همانند سای‌ول ابزاری برای تحلیل داده فارسی است.

 

گزارش: ملیکا خرمشکوه