داخلی
»سخن هفته
نه، این برف را سر باز ایستادن نیست
لیزنا، سید ابراهیم عمرانی، سردبیر: دوستی مقالهای برایم فرستاده بود که در آن از مشکلات چتباتها و مدلهای زبانی آنها یعنی LLM ها نوشته بود که مرا به یاد صحبتی با دوستی ادیب و شاعر و مترجم شعر و ادبیات انداخت. دوست ادیب بنده از من میپرسید این هوش مصنوعی تا کجا؟ چه دارد میکند؟ و از من که تخصصم هوش مصنوعی نیست سراغ جایگاه ادبیات در هوش مصنوعی مرا میگرفت. من آن روز که شاید دو هفته پیش بود با قاطعیت یک دانشمند تمام عیار هوش مصنوعی میگفتم که به علل بسیار چت جی پی تی نمیتواند به حوزه ادبیات ورود جدی داشته باشد. خواندن شعر خودش هنر میخواهد، همینطور خواندن یک رمان با ساختارهای نو خودش مهارت میخواهد که سر و ته قصه را گم نکنی و از این صحبتها، تا چه رسد به نوشتن ادبیات و آفرینشهای هنری و ادبی. تا چه رسد به چت باتها که در مسایل معمول فعلی هنوز ضعفهای مشهودی دارند.
مقاله جدیدی که دوست عزیز برایم فرستاده بود را که میخواندم با خودم گفتم نه، مثل اینکه این برف را سر باز ایستادن نیست . البته در شعر شاملو برف سپید، موی سر و حرکت از جوانی به پیری است، لیکن اینجا داستان چیز دیگری دارد میشود. هوش مصنوعی مسیری عکس را دارد طی میکند و هر روز جوانتر و جوانتر میشود. حالا برایتان نقل میکنم که به چه موضوعی برخوردم.
در این مدت اخیر از انواع ابزارهای هوش مصنوعی استفاده کردهام و خوب تا اینجا و با توجه به نوع کارم با Scopus AI میانه بهتری دارم، چون مقالههایی که میدهد اغلب مقالههای پژوهشی هستند که سر و تهشان معلوم است. هوش مصنوعی پایگاه زندی هم خوب است و در میان تجاریها باز پرپلکسیتی را به چت جی پی تی ترجیح میدهم. و با اینهمه این اعتقاد که مدلهای زبانی بزرگ یک جاهایی دارند لنگ میزنند را حس میکنم، و از نظر فنی و فناوری نمیفهمم چیست؟ شاید همان باشد که با دوست ادیبم صحبت میکردیم. بله یک جای کار میلنگد و متخصصان هوش مصنوعی باید بگویند.
البته این را هم اضافه بکنم که جایی خوانده بودم که در گذشتههای دور، نیوتن معادلهای برای گرانش کشف کرد. نکته قابل توجه این است که این معادله فوقالعاده ساده بود (حداکثر در حد جبر دبیرستان) و با این حال میتوانست نه تنها حرکت بیضوی سیارات و قمرهای آنها، بلکه حتی افتادن سیب روی زمین را نیز محاسبه و به نوعی پیشبینی کند. پیش بینی کند که این سیاره در مداری که هست،چگونه حرکت خواهد کرد و در چه زمانی از چه نقطهای در فضا خواهد گذشت.
با وجود قدرت و سادگی معادله نیوتن، چند مشکل کوچک با آن وجود داشت. معروفترین آنها این بود که مدار عطارد با پیشبینیها مطابقت نداشت. انیشتین این مشکلات را با نسبیت عام حل کرد، که سیاهچالهها و امواج گرانشی را نیز پیشبینی میکرد. این گونه حل مساله اکنون در فناوریهای هوش مصنوعی به خوبی دیده میشود. خواندم که LLM ها فقط مدلهای آماری هستند که کلمه بعدی را پیشبینی میکنند. مانند معادله ریاضی ساده در گرانش نیوتن، و به این نتیجه رسیدم که این مثال خوبی است در قیاس با معادله نیوتن. اما لایههای عمیقتری وجود دارد که ارزش بررسی دارند. و این مقاله سر نخی به من داد به نام LCM که بروم و ببینم این داستان به کجا دارد میرود. بله این داستان را سر باز ایستادن نیست. دانشمندان هوش مصنوعی به مدلهای زبانی بزرگ نه تنها بسنده نکردهاند، بلکه به شدت مشغول کار روی مدلهای مفهومی بزرگ یا Large Conceptual Modelهستند.
بنابراین رفتم سراغ پایگاه Arxiv و جستجو را ادامه دادم که در اینجا من هم با تعریف مختصری از این پدیده در حال ظهور سر نخ را دست علاقه مندانی که تا کنون با این موضوع درگیر نشدهاند بدهم تا کسانی که صلاحیت ورود به بحث را دارند برای ما بنویسند تا ما هم بیشتر بدانیم. خودم هم تا مدتی سراغ دوست ادیبم نروم که خوابش را آشفته نکنم.
بخشی از مقدمه را از مقالهای[1] بسیار تازه برایتان نقل میکنم:
"مدلهای زبانی بزرگ (LLM) چشمانداز هوش مصنوعی (AI) را تغییر شکل دادهاند و به عنوان ابزارهای ضروری برای کارهایی مانند پردازش زبان طبیعی، تولید محتوا و تصمیمگیریهای پیچیده ظهور کردهاند . راهاندازی ChatGPT در اواخر سال 2022 لحظهای تعیینکننده بود که دوران جدیدی از هوش مصنوعی مولد را آغاز کرد و LLMها را در برنامههای روزمره وارد کرد. در هسته این مدلها، معماری Transformer، یک شبکه عصبی پیچیده که دستورات کاربر را پردازش و تفسیر میکند، قرار دارد. یک جزء حیاتی اما اغلب نادیده گرفته شده در این فرآیند، توکنساز است. این مکانیسم متن ورودی را به واحدهای کوچکتری به نام توکن تقسیم میکند که میتوانند کلمات، زیرکلمات یا کاراکترهایی باشند که به واژگان مدل نگاشت شدهاند. این مرحله توکنسازی برای تفسیر مؤثر متن حیاتی است و Transformer را قادر میسازد تا پاسخهای منسجمی تولید کند. همافزایی بین توکنساز و معماری Transformer، عملکرد قابل توجه LLMها را پشتیبانی میکند و جایگاه آنها را در خط مقدم پیشرفتهای مدرن هوش مصنوعی تثبیت میکند . علیرغم این دستاوردها، LLMها با محدودیتهای ذاتی مرتبط با پردازش سطح توکن خود مواجه هستند، که در آن پیشبینیها بر اساس توالیهای قبلی، یک توکن در هر زمان تولید میشوند. این رویکرد، توانایی آنها را در انجام وظایفی که نیاز به استدلال عمیق، مدیریت زمینه گسترده یا خروجیهای بسیار ساختاریافته دارند، محدود میکند. برخلاف شناخت انسان، که معمولاً با یک طرح کلی سطح بالا شروع میشود و به تدریج جزئیات را اضافه میکند، LLMها به مقادیر زیادی از دادههای آموزشی بدون مکانیسمهای صریح برای ساختار سلسله مراتبی متکی هستند. در نتیجه، آنها اغلب برای حفظ انسجام در محتوای طولانی که شامل چندین بخش است، تلاش میکنند. علاوه بر این، پیچیدگی محاسباتی درجه دوم پردازش توالیهای طولانی، چالشهای مقیاسپذیری را ایجاد میکند و کارایی آنها را محدود میکند . در حالی که تکنیکهای جدیدتری برای حل این مسائل معرفی شدهاند، که در این تاریخ راهحلهای جزئی ارائه میدهند و محدودیتهای اساسی را به طور کامل حل نمیکنند. بنابراین، پیشرفت LLM ها نیازمند رویکردهای جدیدی است که استدلال سلسله مراتبی صریح را برای خروجیهای ساختاریافته و سازگار با زمینه با هم دربرگیرد".
قبل از رفتن سراغ بقیه توضیح در اینجا با استفاده از منابع ، تعریف کوتاهی از توکن برای آن دسته از دوستان که مانند من کمتر با مقوله یادگیری الکترونیکی درگیر هستند،کپی پیست میکنم و بعد ادامه میدهیم:
”در سالهای اخیر، مدلهای زبان بزرگ (LLM) انقلابی در حوزه هوش مصنوعی ایجاد کردهاند و به ابزاری ضروری برای بسیاری از وظایف تبدیل شدهاند. مؤلفه اصلی در معماری این مدلها، یک مدل ترانسفورمر بزرگ است. با این حال، برای پردازش دستورات ما، LLMها از مؤلفه مهم دیگری به نام توکنساز استفاده میکنند. توکنساز، دستور را به توکنها تبدیل میکند که بخشی از واژگان مدل هستند.
مثال توکنسازی GPT-4:
در تصویر بالا، میبینیم که چگونه GPT-4 جمله «آیا توکنسازی در نهایت از بین خواهد رفت؟» را با اختصاص دادن یک توکن به هر کلمه، توکنسازی میکند، به جز کلمه «توکنسازی» که به دو توکن تقسیم شده است. LLM این ورودی توکنسازی شده را برای تولید پاسخ با استفاده از همان واژگان توکن پردازش میکند.
با این حال، این روش با نحوه تجزیه و تحلیل اطلاعات و تولید محتوای خلاقانه توسط انسان تفاوت قابل توجهی دارد، زیرا انسانها در سطوح مختلف انتزاع، بسیار فراتر از کلمات منفرد، عمل میکنند"[2].
مساله مهم رفتن از واژه پردازها به سمت جمله پردازها است. برگردیم به مقاله Arxiv :
"برای غلبه بر محدودیتهای LLM های سنتی، Meta مدلهای مفهومی بزرگ (LCM) را معرفی کرده است، یک چارچوب پیشگامانه که واحد اساسی پردازش را از توکنهای منفرد به واحدهای معنایی کامل، که به عنوان مفاهیم شناخته میشوند، تغییر میدهد. برخلاف LLM ها، که کلمات یا زیرکلمات را به صورت متوالی پیشبینی میکنند، LCM ها در سطح بالاتری از انتزاع عمل میکنند و ایدههای کامل را بازنمایی و استدلال میکنند LCM ها با گروهبندی جملات یا خوشههای مفهومی، میتوانند وظایف با زمینه طولانی را به طور مؤثرتری انجام دهند و خروجیهایی تولید کنند که هم منسجم و هم قابل تفسیر باشند . این رویکرد مفهومی نه تنها منعکس کننده نحوه سازماندهی و پردازش اطلاعات توسط انسان است، بلکه هزینههای محاسباتی مرتبط با مدیریت توالیهای طولانی را نیز به طور قابل توجهی کاهش میدهد LCM ها میتوانند عملکرد استثنایی را در وظایف بین زبانی نشان دهند، متن را به طور یکپارچه در چندین زبان بدون آموزش مجدد تولید و پردازش کنند و در وظایف چندوجهی برتری داشته باشند و متن و گفتار را برای ترجمه و رونویسی در زمان واقعی ادغام کنند. توانایی آنها در ترکیب و بسط محتوای طولانی با زمینه مرتبط، آنها را به ویژه در کارهایی که شامل درک گسترده سند هستند، مؤثر میکند. با تغییر تمرکز از مدلسازی سطح توکن به مدلسازی سطح مفهوم، LCMها مقیاسپذیری را افزایش میدهند، که امکان مدیریت مجموعه دادههای گستردهتر و وظایف پیچیدهتر را فراهم میکند و در عین حال استانداردهای جدیدی را برای کارایی و تفسیرپذیری تعیین میکند.
با توجه به تحقیقات دانشگاهی نسبتاً محدود در مورد LCMها، این مطالعه با ترکیب بینشهای حاصل از منابع خاکستری، مانند گزارشهای فنی، پستهای وبلاگ، ارائههای کنفرانس و بحثهای یوتیوب، ارزیابی جامعی از LCMها ارائه میدهد که اغلب دیدگاههای اولیه و عملی در مورد فناوریهای نوظهور را قبل از در دسترس بودن مطالعات رسمی بررسیشده توسط همتایان ارائه میدهند. این رویکرد به ما امکان میدهد تا آخرین تحولات و پیامدهای واقعی LCMها را ثبت کنیم. تجزیه و تحلیل ما ویژگیهای متمایزی را که LCMها را از LLMهای سنتی متمایز میکند، به ویژه توانایی آنها در استدلال در سطح انتزاعی، زبان و روش، شناسایی میکند. این مطالعه همچنین کاربردهای عملی آنها را در حوزههای حیاتی مانند امنیت سایبری، مراقبتهای بهداشتی و آموزش بررسی میکند و در عین حال جهتها و استراتژیهای کلیدی تحقیق برای تقویت توسعه و پذیرش آنها را تشریح میکند[3]".
این مقاله از اینجا به بعد وارد مسایل پیچیدهتر فنی میشود که علاقهمندان میتوانند آن را ادامه دهند و من اینجا وقت دوستان را بیش از این نمیگیرم.
در پایان فقط اشاره ای به فناوری به نام سونار میکنم که ظاهرا یکی از پایهای ترین فناوریهای مدلهای مفهومی بزرگ محسوب میشود.
Sonar چیست؟
"معماری بنیادی یک مدل مفهومی بزرگ LCMرمزگذار و رمزگشایی مجدد است. برای درک این موضوع، باید در مورد مفهومی به نام سونار صحبت کنیم. سونار، یک فضای جاسازی جمله با اندازه ثابت چندزبانه و چندوجهی جدید. سونار یک مدل جاسازی جمله بدون وابستگی به زبان و وجه است.
استراتژی آموزش یک مدل مفهومی بزرگ - مدل رمزگذار-رمزگشا (آموزش مبتنی بر متن) است و پوشش آن ۲۰۰ زبان برای متن و ۳۷ زبان برای گفتار است.
اما چه چیزی SONAR را خاص میکند؟
اولین ویژگی متمایز SONAR تمرکز آن بر یادگیری یک فضای یکپارچه جاسازی جمله است. برخلاف وظایف سنتی NLP که متن را به کلمات یا کاراکترها تبدیل میکنند، هدف SONAR فشردهسازی متن و گفتار در یک فضای جاسازی مشترک است که در آن میتوان عملیات را انجام داد.
این فضای جاسازی، معنای معنایی جملات را صرف نظر از زبان یا روش ورودی نشان میدهد. به عبارت دیگر، SONAR بر توانایی یادگیری نمایش معنایی تأکید دارد تا تمرکز بر روابط سطح کلمه در یک زبان واحد.
روش آموزش SONAR شباهت بین زبانی را با رمزگذاری خودکار ترکیب میکند و به جاسازیهای آن قابلیت سازگاری طبیعی برای وظایف چندزبانه و چندوجهی میدهد. این امر SONAR را در مدیریت وظایف Zero-Shot بسیار مؤثر میکند. یک وظیفه Zero-Shot به پردازش دادههایی اشاره دارد که مدل قبلاً هرگز ندیده است، از جمله دادههایی که به دادههای آموزشی آن مرتبط نیستند (تا زمانی که روش یکسان باشد). به عنوان مثال، SONAR میتواند دادههایی را از زبانی که در مجموعه آموزشی گنجانده نشده است، مدیریت کند.
نکته: باز هم به یاد داشته باشید، SONAR یک مدل مبتنی بررمز گذار - رمزگشا Encoder-Decoder است، نه یک مدل مکالمهای مانند LLMها"[4].
خُب دوستان این هم سر نخ. منتظر توضیحات و نوشته های بیشتر از شما هستیم. من اینجا شما را به خدا میسپارم که بروم سراغ دوست ادیب نازنینم. البته نمیخواهم خوابش را آشفته کنم، گرچه این هم مانند چت باتها و مدلهای زبانی بزرگ به زودی نتایج خودش را نشان خواهد داد و باز باید به او بگوئیم تو به کار آفرینش خود ادامه بده که دست کم در عمر مانده من و تو،هنوز میتوانیم همان کارهای به روال خودمان را دنبال کنیم. جوانها هم که با حضور این فضاها و ابزارها به دنیا آمده اند و خیلی بهتر از امثال من و تو میتوانند راه خود را بروند. پیروز باشند.
عمرانی، سید ابراهیم (۱۴۰۴). « حرکت از مدلهای زبانی بزرگ به مدلهای مفهومی بزرگ: نه، این برف را سر باز ایستادن نیست ». سخن هفته لیزنا، شماره 742، 22 اردیبهشت ماه ۱۴۰۴.
---------------------------------------------------
[1]. Ahmad, Hussain. The Future of AI: Exploring the Potential of Large Concept Models/ Hussain Ahmad and Diksha Goel . arXiv:2501.05487, 2025•arxiv.org. https://arxiv.org/abs/2501.05487
[2] Large Concept Models (LCMs) by Meta: The Era of AI After LLMs? By AI Papers Academy / 3 January 2025. https://adasci.org/a-deep-pe-into-large-concept-models-lcms/
[3] . Ahmad, همان
[4] . Rajput, Visha Forget LLMs, It’s Time For Large Concept Models (LCMs) |Medium. Feb 26, 2025 .
https://medium.com/aiguys/forget-llms-its-time-for-large-concept-models-lcms-05b75fe43185
بله دوست عزیز من، اکنون کارت را ادامه بده،هنوز اندکی وقت داری تا نسل جدید هوش مصنوعی بیاید و ببینیم چه گل به سر انسان و انسانیت میزند. شاید مانند همین الآن بزرگترین خدمتش به دولتها باشد و نه به ملتها و اگر روز به قدرت مطلق برسد، شاید فاتحه انسانیت را یک بار برای همیشه بخواند و ما را از بلاتکلیفی بیرون بیاورد.
۱. از توهین به افراد، قومیتها و نژادها خودداری کرده و از تمسخر دیگران بپرهیزید و از اتهامزنی به دیگران خودداری نمائید.
۲.از آنجا که پیامها با نام شما منتشر خواهد شد، بهتر است با ارسال نام واقعی و ایمیل خود لیزنا را در شکل دهی بهتر بحث یاری نمایید.
۳. از به کار بردن نام افراد (حقیقی یا حقوقی)، سازمانها، نهادهای عمومی و خصوصی خودداری فرمائید.
۴. از ارسال پیام های تکراری که دیگر مخاطبان آن را ارسال کرده اند خودداری نمائید.
۵. حتی الامکان از ارسال مطالب با زبانی غیر از فارسی خودداری نمائید.