سمانتیک اسکالر؛ موتور جستجوی پژوهشگران بر پایه هوش مصنوعی

 

به گزارش لیزنا، فناوری «سمانتیک اسکالر» (دانشنامه معنایی) پروژه و سرویس رایگانی است که توسط «مؤسسه تحقیقاتی هوش مصنوعی آلن»[1] توسعه یافته است و در سال 2015 میلادی به طور رسمی و به رهبری یکی از بنیانگذاران شرکت مایکروسافت به نام «پائول آلن» [2]به عنوان اولین موتور جستجوی مبتنی بر هوش مصنوعی به منظور تسریع در فرایند تحقیقات علمی و در جهت تهیه مقالات نشریات علمی- تخصصی طراحی شده است تا خدمات خود را به طور رایگان در اختیار عموم پژوهشگران قرار دهد.[3][4] این مؤسسه که از ترکیب مهندسان و پژوهشگران در شهر سیاتل آمریکا[5] تشکیل شده، تلاش می کند تا با دستیابی و ایجاد نظام های هوش مصنوعی به وسیله استدلال و درک فرایندهای منطقی، یادگیری، کسب تجربه و توانایی خواندن (درک مطلب) به پیشرفت های علمی دست یابد.[6]

پروژۀ «سمانتیک اسکالر» ترکیبی از سیستم یادگیری ماشینی[7]، سیستم پردازش زبان طبیعی[8] و سیستم بینایی دستگاه (دید دستگاه)[9]  برای افزودن لایه «تحلیل معنایی»[10] در قالب روش های سنتی تحلیل استنادی[11]، استخراج عناصر و اشکال وابسته، نام نهادها و اشخاص و در نهایت مکان رخداد یا همان محل نشر مقاله است.[12] ارزش این پروژه نوین که به نشانی اینترنتی www.semanticscholar.org و یا https://allenai.org/semantic-scholar/ قابل دسترس است به هیچ عنوان با پروژه های پاب مد[13] و گوگل اسکالر[14] قابل قیاس نیست؛ در مقایسه با این دو پروژه کاربردی، «سمانتیک اسکالر» از یک سو به منظور تعیین برجسته ترین، مهمترین و تأثیرگذارترین مقالات علمی- تحقیقاتی طراحی شده است و از سوی دیگر به شناسایی ارتباط بین این داده ها اقدام می کند. به بیانی ساده بهره برداری از پروژه هوش مصنوعی در استخراج داده ها به پژوهشگران سراسر جهان اجازه می دهد تا ایشان از میان میلیون ها مقاله علمی منتشر شده -در پایگاه های اطلاعاتی متعدد و شبکه جهانی اینترنت- به سرعت مقاله مورد نظر و مرتبط با موضوع خود را بیابند و نسبت به گلچین مهم ترین و تأثیرگذارترین ها اقدام کنند.

دکتر اورن[15] کارآفرین و متخصص علوم رایانه و مدیر عامل[16] همین شرکت، دلیل توانمندسازی سیستم های استخراج دانش به هوش مصنوعی را رشد انفجاری علم دانسته است. کاری که آقای اورن و همکارانشان انجام داده اند پاسخگوی نیازهای بالقوه و بالفعل یک پژوهشگر است؛ کدام مقالات مهم تر هستند؟ کدام یک از مقالات بیشترین کیفیت و اعتبار را دارند؟ آیا شخص دیگری بر روی مسئله مورد نظر کار کرده است؟ اینها پرسش هایی هستند که اکنون توسط هوش مصنوعی در چند ثانیه قابلیت پاسخ دادن دارند و در روند پژوهش های پژوهشگران تسریع ایجاد می کند و مسائل بزرگ را سریعتر حل و فصل می کند.  فرایند جستجوی «سمانتیک اسکالر» از طریق خزیدن (ردیابی) و البته با بهره برداری از سیستم ماشین خوان[17] که یکی از سیستم های هوش مصنوعی برای درک متون[18] است و سیستم بینایی دستگاه (جستجوی بصری) در شبکه جهانی انجام می گردد و در این فرایند کلیه فایل های مقالات با فرمت پی.دی.اف که در شبکه در دسترس هستند را شناسایی و بازیابی کرده و به استخراج عناوین، متون، نمودارها و نمایه همه آنها برای بازیابی های متنی آتی اقدام می کند؛ در ادامه با استفاده از سیستم پردازش زبان طبیعی به شناسایی برترین مباحث موضوعی (برترین مقالات) می پردازد و پس از فیلترینگ و طبقه بندی اطلاعات و مباحث، به تفکیک اطلاعات بر اساس نوع مقاله و تعیین میزان تأثیرگذاری هر مقاله و استناد می پردازد. سامانه «سمانتیک اسکالر» دارای رابط کاربری بسیار ساده[19] و بهینه شده برای کاربرد بر روی تلفن همراه[20] است تا انتظارات پژوهشگران را از یک سیستم پیشرفته فراهم سازد. به بیانی دیگر شالوده «سمانتیک اسکالر» برای غلبه بر اضافه بار اطلاعاتی است که همواره پژوهشگران درگیر آن بوده اند تا زین پس برترین اطلاعات را به سرعت بیابند. مدیر عامل «مؤسسه تحقیقاتی هوش مصنوعی آلن» معتقد است: این اولین گام هوش مصنوعی برای کمک به موتورهای جستجوگر است که قادر به اتصال نقطه های مطالعات متقابل به منظور شناسایی  فرضیه های جدید و ارائه پیشنهاد آزمایش هایی است که اگر هوش مصنوعی نبود از دست می رفت. وی هدف بهره برداری از هوش مصنوعی در فرایند جستجو را پاسخ به برخی از مشکل ترین مسائل علمی می داند. پژوهشگران می توانند مطالب مورد نظر خود را با استفاده از آیکون های پیش بینی شده در «سمانتیک اسکالر» برای فیلترینگِ اطلاعات، پالایش اطلاعاتی کنند و دقیقاً آنچه را نیاز دارند در میان مطالب جستجو شده بیابند. فیلتر این جستجو ها به مانند دیگر پایگاه های اطلاعاتی معتبر شامل: سال انتشار، نوع مقالات، نویسندگان، مقالاتی که فایل پی.دی.اف[21] دارند، مقالات کامل، مقالات کنفرانس ها و نشریات علمی به تفکیک نشریات می شود. همچنین قابلیت مشاهده استنادها به هر یک از مقالات و تعیین مؤثرترین استنادها؛ مشاهده جداول، نمودارها، مراجع، منابع و همچنین مقالات مشابه و مرتبط به تفکیک وجود دارد. پژوهشگران توسط این سامانه قادر خواهند بود تا به ذخیره اطلاعات و در صورت نیاز در همین سامانه اقدام به نقل قول نویسی[22] کنند.

از مزایای دیگر این سیستم هوشمند، مشاهده مقالات استناد شده و شناسایی این موضوع است که چه قسمتی و چگونه بسیاری از محققانِ دیگر به یک مطلب یا مقاله ارجاع داده اند؛ این راه خوبی برای تعیین تأثیر سودمندی بیشتر برای مواقع ارجاع است. موضوع دیگر دستیابی منحصر به فرد پژوهشگر به ارقام، اشکال، جداول و یافته ها در یک فضای گرافیکی خاص است که اغلب پژوهشگران به دنبال آن هستند[23].

 از ماه ژانویه سال 2018 میلادی و پس از انجام پروژه ای که در سال 2017 میلادی به منظور افزودن مقالات زیست پزشکی[24] و خلاصه های موضوعی انجام شد، بیش از 40 میلیون مقاله در حوزه علوم رایانه و زیست پزشکی به مجموعه اصلی «سمانتیک اسکالر» افزوده شده است[25]؛  در ماه مارچ 2018 میلادی، داگ ریموند[26]، کسی که مبتکر توسعه برنامه های یادگیری ماشینی پلتفرم «آمازون الکسا»[27]نیز بود به پروژه عظیم «سمانتیک اسکالر» برای رهبری آن دعوت شد. [28] باید دانست کسب دانش از منابع سازمان یافته و دارای ساختار و غیر ساختار یافته (متن، تصویر) از اهداف استخراج دانش[29] به ترتیب توسعۀ داده به اطلاعات، اطلاعات به دانش است و در دوره کنونی ضرورت وجود دانش در اشکالی شامل ماشین با قابلیت خوانش و ماشین با قابلیت تفسیر ضرورتی اجتناب ناپذیر است؛ بنابراین در دنیای کنونی انباشته شده از اطلاعات خرد و کلان، بی ارزش و ارزشمند، بایستی دانش را به گونه ای ارائه کرد که قابلیت تشریح داشته باشد؛ اگرچه ممکن است منظور همان سیستم استخراج اطلاعات از طریق پردازش زبان طبیعی باشد ولی در این طرح هدفِ استخراج اطلاعات فراتر از ایجاد اطلاعات ساختار یافته است؛ چرا که ابزارهای هوش مصنوعی جدید حتی قادر به استخراج دیدگاه ها از مجموعه های کوچک تری از اطلاعات هستند[30].

شاید بتوان گفت که دیدگاه افزودن ده ها میلیون عنوان مقاله در حوزه مطالعات زیست پزشکی در سامانه «سمانتیک اسکالر» مربوط به داستان دل درد خانم ماری هاگمن[31] باشد. هاگمن به عنوان مدیر ارشد تولیدات هوش مصنوعی مؤسسه تحقیقاتی آلن نقش مهمی در شناخت ادغام اسناد موجود در پایگاه اطلاعاتی پابمد و دیگر پایگاه های زیست پزشکی به عنوان ابزاری برای جستجوهای آکادمیک ایفا کرد. وی به مدت پانزده سال و پیش از آنکه تجربه مهندسی نرم افزار در آلن را کسب کند، از دل درد و التهاب معده رنج می برد؛ پزشک متخصص برای وی نسخه ای از داروهای متعدد تجویز کرد و به هاگمن گفت: مجبور است تا برای بقیه عمر از این داروها استفاده کند. هاگمن می گوید: با دیدن این شرایط و با توجه به اینکه هنوز جوان بودم، تصمیم گرفتم که برای خودم کاری کنم؛ چون پزشکان نمی توانستند پاسخ درستی در مورد دل دردهای مکررم ارائه دهند؛ بنابر این در میان مطالب پزشکی و با رجوع به موتورهای جستجوگر به جستجو پرداختم و مطالعه ای را یافتم که در آن محققان به نوعی باکتری به نام هلیکوباکتر پیلوری[32]به عنوان یک علت بالقوه اشاره کرده بودند. هاگمن با این سطح از دانش، متخصص دیگری را متقاعد کرد تا آنتی بیوتیک هایی مربوط به این نوع باکتری تجویز کند. همان جستجو باعث درمان همیشگی هاگمن شد. پس از این ماجرا، همواره هدف وی کمک به پژوهشگران و حتّی عموم افراد است تا بتوانند مرتبط ترین مطالب علمی و پرسش های پزشکی را بیابند و به آنها پاسخ دهند. سرانجام با حمایت های پائول آلن، «سمانتیک اسکالر» به عنوان ابزار ویژه ای برای جستجوی مطالعات علم رایانه در سال 2015 میلادی راه اندازی شد و در سال 2016 میلادی پایگاه داده آلن در حوزه تحقیقات علوم اعصاب نیزگسترش یافت. پس از آن هاگمن و همکارانش الگوریتم های جدیدی را برای گسترش اسناد از 12 میلیون به 40 میلیون ابداع و پیاده سازی کردند. هاگمن معتقد است که الگوریتم ها و ابزارهای موتورهای جستجوگر پیشرفته باید به گونه ای باشند که به تازه کارها به همان مقدار کمک کند که به پژوهشگرانِ متخصص کمک می کند. به طور مثال اگر واژه زخم معده[33]  را تایپ کنیم، زخم معده[34] ظاهر می شود که یک عبارت پزشکی تخصصی است ولی عموم مردم از آن درکی ندارند و موضوع همچنان برایشان ناشناخته باقی می ماند؛ هوش مصنوعی توانایی تفکیک خواسته ها دارد. نکته دیگر کاربرپسندی[35] هوش مصنوعی «سمانتیک اسکالر» است که تمایز ویژه ای است که این سامانه نسبت به پابمد و گوگل اسکالر دارد. اما هدف رقابت با این ابزارها نیست؛ بلکه «سمانتیک اسکالر» با شرکت گوگل، مایکروسافت، شرکت چینی بایدو[36] و تعدادی از معتبرترین شرکت های مرتبط با هوش مصنوعی همکاری دارد و هدف از این همکاری تسهیل در به اشتراک گذاری داده ها در یک سطح پایه است که از طریق آن منابع بیشتری برای ایجاد نوآوری اختصاص یابد[37].

نگارنده به متخصصان علوم زیست پزشکی سفارش می کند تا در پژوهش های خود از این ابزار بهره برداری کنند.

 

ترجمه و تألیف: مهدی لطفی پناه؛ کارشناس ارشد علوم کتابداری و اطلاع رسانی پزشکی دانشگاه علوم پزشکی تهران. مدیر اداره اطلاع رسانی و کتابخانه تخصصی پژوهشگاه رویان.



1.       Allen Institute for Artificial Intelligence

2.       Paul Allen

3.       Paul Allen's AI research group unveils program that aims to shake up how we search scientific knowledge. Give it a try. The Washington Post. Retrieved November 3, 2015.

4.       Semantic Scholar Utilizes Artificial Intelligence Methods to Transform Scientific Search for Computer Scientists. https://web.archive.org/web/20151123100529/http://allenai.org/content/articles/Semantic-Scholar.pdf

5.       Seattle, Washington,US

6.       Allen Institute for Artificial Intelligence. Retrieved January 25, 2014.

7.       Machine Learning (ML)

8.       Natural language processing (NLP(

9.       Machine Vision (MV)

10.    Semantic Analysis

11.    Citation Analysis

12.    Bohannon, John (11 November 2016). A computer program just ranked the most influential brain scientists of the modern era. sciencemag.org. American Association for the Advancement of Science. Retrieved 12 November 2016.

13.    PubMed

14.    Google Scholar

15.    Oren Etzioni

16.    CEO:Chief Executive Officer

17.    Machine Reading

18.    Machine Reading Comprehension

19.    Simple User Interface

20.    Optimized for Mobile

21.    PDF

22.    Cite

23.    www.semanticscholar.org

24.    Biomedical

25.    AI2 scales up Semantic Scholar search engine to encompass biomedical research. GeekWire. 2017-10-17. Retrieved 2018-01-18.

26.    Doug Raymond

27.    Amazon Alexa

28.    Tech Moves: Allen Instititue Hires Amazon Alexa Machine Learning Leader; Microsoft Chairman Takes on New Investor Role; and More. GeekWire. 2018-05-02.

29.    Knowledge Extraction

30.   افزایش قابلیت های محصولات مایکروسافت با هوش مصنوعی. شرکت امن پایه ریزان کارن. 1396

31.    Marie Hagman

32.    Helicobacter pylori

33.    Stomach Ulcer

34.    Gastric Ulcer

35.    User Friendly

36.    A Chinese Artificial Intelligence Company

37.    AI2 scales up Semantic Scholar search engine to encompass biomedical research. GeekWire. 2017-10-17.