کد خبر: 49721
تاریخ انتشار: دوشنبه, 23 ارديبهشت 1404 - 10:07

داخلی

»

سخن هفته

حرکت از مدل‌های زبانی بزرگ به مدل‌های مفهومی بزرگ:

نه، این برف را سر باز ایستادن نیست

منبع : لیزنا
سید ابراهیم عمرانی
نه، این برف را سر باز ایستادن نیست

لیزنا، سید ابراهیم عمرانی، سردبیر: دوستی مقاله‌ای برایم فرستاده بود که در آن از مشکلات چت‌باتها و مدل‌های زبانی آنها یعنی LLM ها نوشته بود که مرا به یاد صحبتی با دوستی ادیب و شاعر و مترجم شعر و ادبیات انداخت. دوست ادیب بنده از من می‌پرسید این هوش مصنوعی تا کجا؟ چه دارد می‌کند؟ و از من که تخصصم هوش مصنوعی نیست سراغ جایگاه ادبیات در هوش مصنوعی مرا می‌گرفت. من آن روز که شاید دو هفته پیش بود با قاطعیت یک دانشمند تمام عیار هوش مصنوعی می‌گفتم که به علل بسیار چت جی پی تی نمی‌تواند به حوزه ادبیات ورود جدی داشته باشد. خواندن شعر خودش هنر می‌خواهد،‌ همینطور خواندن یک رمان با ساختارهای نو خودش مهارت می‌خواهد که سر و ته قصه را گم نکنی و از این صحبتها، تا چه رسد به نوشتن ادبیات و آفرینشهای هنری و ادبی. تا چه رسد به چت باتها که در مسایل معمول فعلی هنوز ضعفهای مشهودی دارند.

مقاله جدیدی که دوست عزیز برایم فرستاده بود را که می‌خواندم با خودم گفتم نه، مثل اینکه این برف را سر باز ایستادن نیست . البته در شعر شاملو برف سپید، موی سر و حرکت از جوانی به پیری است،‌ لیکن اینجا داستان چیز دیگری دارد می‌شود. هوش مصنوعی مسیری عکس را دارد طی می‌کند و هر روز جوانتر و جوانتر  می‌شود. حالا برایتان نقل می‌کنم که به چه موضوعی برخوردم.

در این مدت اخیر از انواع ابزارهای هوش مصنوعی استفاده کرده‌ام و خوب تا اینجا و با توجه به نوع کارم با Scopus AI میانه بهتری دارم، چون مقاله‌هایی که می‌دهد اغلب مقاله‌های پژوهشی هستند که سر و ته‌شان معلوم است. هوش مصنوعی پایگاه زندی هم خوب است و در میان تجاریها باز پرپلکسیتی را به چت جی پی تی ترجیح می‌دهم. و با اینهمه این اعتقاد که مدلهای زبانی بزرگ یک جاهایی دارند لنگ می‌زنند را حس می‌کنم، و از نظر فنی و فناوری نمی‌فهمم چیست؟ شاید همان باشد که با دوست ادیبم صحبت می‌کردیم. بله یک جای کار می‌لنگد و متخصصان هوش مصنوعی باید بگویند.

البته این را هم اضافه بکنم که جایی خوانده بودم که در گذشته‌های دور، نیوتن معادله‌ای برای گرانش کشف کرد. نکته قابل توجه این است که این معادله فوق‌العاده ساده بود (حداکثر در حد جبر دبیرستان) و با این حال می‌توانست نه تنها حرکت بیضوی سیارات و قمرهای آنها، بلکه حتی افتادن سیب روی زمین را نیز محاسبه و به نوعی پیش‌بینی کند. پیش بینی کند که این سیاره در مداری که هست،‌چگونه حرکت خواهد کرد و در چه زمانی از چه نقطه‌ای در فضا خواهد گذشت.

با وجود قدرت و سادگی معادله نیوتن، چند مشکل کوچک با آن وجود داشت. معروف‌ترین آنها این بود که مدار عطارد با پیش‌بینی‌ها مطابقت نداشت. انیشتین این مشکلات را با نسبیت عام حل کرد، که سیاه‌چاله‌ها و امواج گرانشی را نیز پیش‌بینی می‌کرد. این گونه حل مساله اکنون در فناوریهای هوش مصنوعی به خوبی دیده می‌شود. خواندم که LLM ها فقط مدل‌های آماری هستند که کلمه بعدی را پیش‌بینی می‌کنند. مانند معادله ریاضی ساده در گرانش نیوتن، و به این نتیجه رسیدم که این مثال خوبی است در قیاس با معادله نیوتن. اما لایه‌های عمیق‌تری وجود دارد که ارزش بررسی دارند. و این مقاله سر نخی به من داد به نام LCM که بروم و ببینم این داستان به کجا دارد می‌رود. بله این داستان را سر باز ایستادن نیست. دانشمندان هوش مصنوعی به مدلهای زبانی بزرگ نه تنها بسنده نکرده‌اند، بلکه به شدت مشغول کار روی مدلهای مفهومی بزرگ یا  Large Conceptual Modelهستند.

بنابراین رفتم سراغ پایگاه Arxiv و جستجو را ادامه دادم که در اینجا من هم با تعریف مختصری از این پدیده در حال ظهور سر نخ را دست علاقه مندانی که تا کنون با این موضوع درگیر نشده‌اند بدهم تا کسانی که صلاحیت ورود به بحث را دارند برای ما بنویسند تا ما هم بیشتر بدانیم. خودم هم تا مدتی سراغ دوست ادیبم نروم که خوابش را آشفته نکنم.

بخشی از مقدمه را از مقاله‌ای[1] بسیار تازه برایتان نقل می‌کنم:

"مدل‌های زبانی بزرگ (LLM) چشم‌انداز هوش مصنوعی (AI) را تغییر شکل داده‌اند و به عنوان ابزارهای ضروری برای کارهایی مانند پردازش زبان طبیعی، تولید محتوا و تصمیم‌گیری‌های پیچیده ظهور کرده‌اند . راه‌اندازی ChatGPT در اواخر سال 2022 لحظه‌ای تعیین‌کننده بود که دوران جدیدی از هوش مصنوعی مولد را آغاز کرد و LLMها را در برنامه‌های روزمره وارد کرد. در هسته این مدل‌ها، معماری Transformer، یک شبکه عصبی پیچیده که دستورات کاربر را پردازش و تفسیر می‌کند، قرار دارد. یک جزء حیاتی اما اغلب نادیده گرفته شده در این فرآیند، توکن‌ساز است. این مکانیسم متن ورودی را به واحدهای کوچکتری به نام توکن تقسیم می‌کند که می‌توانند کلمات، زیرکلمات یا کاراکترهایی باشند که به واژگان مدل نگاشت شده‌اند. این مرحله توکن‌سازی برای تفسیر مؤثر متن حیاتی است و Transformer را قادر می‌سازد تا پاسخ‌های منسجمی تولید کند. هم‌افزایی بین توکن‌ساز و معماری Transformer، عملکرد قابل توجه LLMها را پشتیبانی می‌کند و جایگاه آنها را در خط مقدم پیشرفت‌های مدرن هوش مصنوعی تثبیت می‌کند . علیرغم این دستاوردها، LLMها با محدودیت‌های ذاتی مرتبط با پردازش سطح توکن خود مواجه هستند، که در آن پیش‌بینی‌ها بر اساس توالی‌های قبلی، یک توکن در هر زمان تولید می‌شوند. این رویکرد، توانایی آنها را در انجام وظایفی که نیاز به استدلال عمیق، مدیریت زمینه گسترده یا خروجی‌های بسیار ساختاریافته دارند، محدود می‌کند. برخلاف شناخت انسان، که معمولاً با یک طرح کلی سطح بالا شروع می‌شود و به تدریج جزئیات را اضافه می‌کند، LLMها به مقادیر زیادی از داده‌های آموزشی بدون مکانیسم‌های صریح برای ساختار سلسله مراتبی متکی هستند. در نتیجه، آنها اغلب برای حفظ انسجام در محتوای طولانی که شامل چندین بخش است، تلاش می‌کنند. علاوه بر این، پیچیدگی محاسباتی درجه دوم پردازش توالی‌های طولانی، چالش‌های مقیاس‌پذیری را ایجاد می‌کند و کارایی آنها را محدود می‌کند . در حالی که تکنیک‌های جدیدتری برای حل این مسائل معرفی شده‌اند، که در این تاریخ راه‌حل‌های جزئی ارائه می‌دهند و محدودیت‌های اساسی را به طور کامل حل نمی‌کنند. بنابراین، پیشرفت LLM ها نیازمند رویکردهای جدیدی است که استدلال سلسله مراتبی صریح را برای خروجی‌های ساختاریافته و سازگار با زمینه با هم دربرگیرد".

قبل از رفتن سراغ بقیه توضیح در اینجا با استفاده از منابع ، تعریف کوتاهی از توکن برای آن دسته از دوستان که مانند من کمتر با مقوله یادگیری الکترونیکی درگیر هستند،‌کپی پیست می‌کنم و بعد ادامه می‌دهیم:

”در سال‌های اخیر، مدل‌های زبان بزرگ (LLM) انقلابی در حوزه هوش مصنوعی ایجاد کرده‌اند و به ابزاری ضروری برای بسیاری از وظایف تبدیل شده‌اند. مؤلفه اصلی در معماری این مدل‌ها، یک مدل ترانسفورمر بزرگ است. با این حال، برای پردازش دستورات ما، LLMها از مؤلفه مهم دیگری به نام توکن‌ساز استفاده می‌کنند. توکن‌ساز، دستور را به توکن‌ها تبدیل می‌کند که بخشی از واژگان مدل هستند.

مثال توکن‌سازی GPT-4:

 

در تصویر بالا، می‌بینیم که چگونه GPT-4 جمله «آیا توکن‌سازی در نهایت از بین خواهد رفت؟» را با اختصاص دادن یک توکن به هر کلمه، توکن‌سازی می‌کند، به جز کلمه «توکن‌سازی» که به دو توکن تقسیم شده است.  LLM  این ورودی توکن‌سازی شده را برای تولید پاسخ با استفاده از همان واژگان توکن پردازش می‌کند.

با این حال، این روش با نحوه تجزیه و تحلیل اطلاعات و تولید محتوای خلاقانه توسط انسان تفاوت قابل توجهی دارد، زیرا انسان‌ها در سطوح مختلف انتزاع، بسیار فراتر از کلمات منفرد، عمل می‌کنند"[2].

مساله مهم رفتن از واژه پردازها به سمت جمله پردازها است. برگردیم به مقاله Arxiv  :

"برای غلبه بر محدودیت‌های LLM های سنتی، Meta  مدل‌های مفهومی بزرگ (LCM) را معرفی کرده است، یک چارچوب پیشگامانه که واحد اساسی پردازش را از توکن‌های منفرد به واحدهای معنایی کامل، که به عنوان مفاهیم شناخته می‌شوند، تغییر می‌دهد. برخلاف LLM ها، که کلمات یا زیرکلمات را به صورت متوالی پیش‌بینی می‌کنند، LCM ها در سطح بالاتری از انتزاع عمل می‌کنند و ایده‌های کامل را بازنمایی و استدلال می‌کنند LCM ها با گروه‌بندی جملات یا خوشه‌های مفهومی، می‌توانند وظایف با زمینه طولانی را به طور مؤثرتری انجام دهند و خروجی‌هایی تولید کنند که هم منسجم و هم قابل تفسیر باشند . این رویکرد مفهومی نه تنها منعکس کننده نحوه سازماندهی و پردازش اطلاعات توسط انسان است، بلکه هزینه‌های محاسباتی مرتبط با مدیریت توالی‌های طولانی را نیز به طور قابل توجهی کاهش می‌دهد LCM ها می‌توانند عملکرد استثنایی را در وظایف بین زبانی نشان دهند، متن را به طور یکپارچه در چندین زبان بدون آموزش مجدد تولید و پردازش کنند و در وظایف چندوجهی برتری داشته باشند و متن و گفتار را برای ترجمه و رونویسی در زمان واقعی ادغام کنند. توانایی آنها در ترکیب و بسط محتوای طولانی با زمینه مرتبط، آنها را به ویژه در کارهایی که شامل درک گسترده سند هستند، مؤثر می‌کند. با تغییر تمرکز از مدل‌سازی سطح توکن به مدل‌سازی سطح مفهوم، LCMها مقیاس‌پذیری را افزایش می‌دهند، که امکان مدیریت مجموعه داده‌های گسترده‌تر و وظایف پیچیده‌تر را فراهم می‌کند و در عین حال استانداردهای جدیدی را برای کارایی و تفسیرپذیری تعیین می‌کند.

با توجه به تحقیقات دانشگاهی نسبتاً محدود در مورد LCMها، این مطالعه با ترکیب بینش‌های حاصل از منابع خاکستری، مانند گزارش‌های فنی، پست‌های وبلاگ، ارائه‌های کنفرانس و بحث‌های یوتیوب، ارزیابی جامعی از LCMها ارائه می‌دهد که اغلب دیدگاه‌های اولیه و عملی در مورد فناوری‌های نوظهور را قبل از در دسترس بودن مطالعات رسمی بررسی‌شده توسط همتایان ارائه می‌دهند. این رویکرد به ما امکان می‌دهد تا آخرین تحولات و پیامدهای واقعی LCMها را ثبت کنیم. تجزیه و تحلیل ما ویژگی‌های متمایزی را که LCMها را از LLMهای سنتی متمایز می‌کند، به ویژه توانایی آنها در استدلال در سطح انتزاعی، زبان و روش، شناسایی می‌کند. این مطالعه همچنین کاربردهای عملی آنها را در حوزه‌های حیاتی مانند امنیت سایبری، مراقبت‌های بهداشتی و آموزش بررسی می‌کند و در عین حال جهت‌ها و استراتژی‌های کلیدی تحقیق برای تقویت توسعه و پذیرش آنها را تشریح می‌کند[3]".

این مقاله از اینجا به بعد وارد مسایل پیچیده‌تر فنی می‌شود که علاقه‌مندان می‌توانند آن را ادامه دهند و من اینجا وقت دوستان را بیش از این نمی‌گیرم.

در پایان فقط اشاره ای به فناوری به نام سونار می‌کنم که ظاهرا یکی از پایه‌ای ترین فناوریهای مدلهای مفهومی بزرگ محسوب می‌شود.

Sonar  چیست؟

"معماری بنیادی یک مدل مفهومی بزرگ LCMرمزگذار و رمزگشایی مجدد است. برای درک این موضوع، باید در مورد مفهومی به نام سونار صحبت کنیم. سونار، یک فضای جاسازی جمله با اندازه ثابت چندزبانه و چندوجهی جدید. سونار یک مدل جاسازی جمله بدون وابستگی به زبان و وجه است.

استراتژی آموزش یک مدل مفهومی بزرگ - مدل رمزگذار-رمزگشا (آموزش مبتنی بر متن) است و  پوشش آن  ۲۰۰ زبان برای متن و  ۳۷ زبان برای گفتار است.

اما چه چیزی SONAR را خاص می‌کند؟

اولین ویژگی متمایز SONAR تمرکز آن بر یادگیری یک فضای یکپارچه جاسازی جمله است. برخلاف وظایف سنتی NLP که متن را به کلمات یا کاراکترها تبدیل می‌کنند، هدف SONAR فشرده‌سازی متن و گفتار در یک فضای جاسازی مشترک است که در آن می‌توان عملیات را انجام داد.

این فضای جاسازی، معنای معنایی جملات را صرف نظر از زبان یا روش ورودی نشان می‌دهد. به عبارت دیگر، SONAR بر توانایی یادگیری نمایش معنایی تأکید دارد تا تمرکز بر روابط سطح کلمه در یک زبان واحد.

روش آموزش SONAR شباهت بین زبانی را با رمزگذاری خودکار ترکیب می‌کند و به جاسازی‌های آن قابلیت سازگاری طبیعی برای وظایف چندزبانه و چندوجهی می‌دهد. این امر SONAR را در مدیریت وظایف Zero-Shot بسیار مؤثر می‌کند. یک وظیفه Zero-Shot به پردازش داده‌هایی اشاره دارد که مدل قبلاً هرگز ندیده است، از جمله داده‌هایی که به داده‌های آموزشی آن مرتبط نیستند (تا زمانی که روش یکسان باشد). به عنوان مثال، SONAR  می‌تواند داده‌هایی را از زبانی که در مجموعه آموزشی گنجانده نشده است، مدیریت کند.

نکته: باز هم به یاد داشته باشید، SONAR  یک مدل مبتنی بررمز گذار - رمزگشا Encoder-Decoder است، نه یک مدل مکالمه‌ای مانند LLMها"[4].

خُب دوستان این هم سر نخ. منتظر توضیحات و نوشته های بیشتر از شما هستیم. من اینجا شما را به خدا می‌سپارم که بروم سراغ دوست ادیب نازنینم. البته نمی‌خواهم خوابش را آشفته کنم، گرچه این هم مانند چت باتها و مدلهای زبانی بزرگ به زودی نتایج خودش را نشان خواهد داد و باز باید به او بگوئیم تو به کار آفرینش خود ادامه بده که دست کم در عمر مانده من و تو،‌هنوز می‌توانیم همان کارهای به روال خودمان را دنبال کنیم. جوانها هم که با حضور این فضاها و ابزارها به دنیا آمده اند و خیلی بهتر از امثال من و تو می‌توانند راه خود را بروند. پیروز باشند.

عمرانی، سید ابراهیم (۱۴۰۴). « حرکت از مدل‌های زبانی بزرگ به مدل‌های مفهومی بزرگ: نه، این برف را سر باز ایستادن نیست ». سخن هفته لیزنا، شماره 742، 22 اردیبهشت ماه ۱۴۰۴.

 

---------------------------------------------------

[1]. Ahmad, Hussain. The Future of AI: Exploring the Potential of Large Concept Models/ Hussain Ahmad and Diksha Goel . arXiv:2501.05487, 2025•arxiv.org.  https://arxiv.org/abs/2501.05487

[2] Large Concept Models (LCMs) by Meta: The Era of AI After LLMs? By AI Papers Academy / 3 January 2025. https://adasci.org/a-deep-pe-into-large-concept-models-lcms/

[3] . Ahmad, همان

[4] . Rajput, Visha Forget LLMs, It’s Time For Large Concept Models (LCMs) |Medium. Feb 26, 2025 .

https://medium.com/aiguys/forget-llms-its-time-for-large-concept-models-lcms-05b75fe43185

بله دوست عزیز من، اکنون کارت را ادامه بده،‌هنوز اندکی وقت داری تا نسل جدید هوش مصنوعی بیاید و ببینیم چه گل به سر انسان و انسانیت می‌زند. شاید مانند همین الآن بزرگترین خدمتش به دولتها باشد و نه به ملتها و اگر روز به قدرت مطلق برسد، شاید فاتحه انسانیت را یک بار برای همیشه بخواند و ما را از بلاتکلیفی بیرون بیاورد.