کد خبر: 51031
تاریخ انتشار: دوشنبه, 25 خرداد 1405 - 09:43

داخلی

»

سخن هفته

طامات‌بافی هوشواره‌ها: سوگیری و توهم

منبع : لیزنا
فریبرز خسروی
طامات‌بافی هوشواره‌ها: سوگیری و توهم

لیزنا؛ فریبرز خسروی، استاد علم اطلاعات و‌دانش شناسی و معاون سابق کتابخانه ملی

طاماتبافی هوشواره‌ها: سوگیری و توهم[1]

در دوره‌ای زندگی می‌کنیم که بهره‌گیری از هوش مصنوعی، به‌ویژه هوش مصنوعی مولد، از حاشیه زندگی علمی و حرفه‌ای بیرون آمده و به یکی از ابزارهای روزمره تبدیل شده است. هر روز بر شمار استفاده‌کنندگان آن افزوده می‌شود و به نظر می‌رسد تا چندی دیگر کمتر حوزه‌ای از زندگی فردی، آموزشی، پژوهشی و حرفه‌ای از تأثیر آن برکنار بماند. اما پرسش اصلی همچنان پابرجاست: تا چه اندازه می‌توان به پاسخ‌ها و عملکرد این سامانه‌ها اعتماد کرد؟ آیا ممکن است این موجود به ظاهر همه‌چیزدان، گاه داستان‌سرایی کند، منبع بتراشد و با اعتمادبه‌نفسی مثال‌زدنی، اطلاعاتی نادرست تحویل ما دهد؟

در این یادداشت، واژه «هوشواره» را به‌عنوان برابرنهاده‌ مناسب‌تری برای سامانه‌های مبتنی بر هوش مصنوعی به کار می‌برم؛ همان‌گونه که «ماهواره» را به جای «قمر مصنوعی» به کار می بریم. با این حال، تمرکز اصلی این نوشته بر آن دسته از هوشواره‌هاست که امروز بیش از همه در تولید متن، تصویر، پاسخ، تحلیل و ارجاع نقش دارند؛ یعنی هوش مصنوعی مولد و به‌ویژه مدل‌های زبانی بزرگ. از این رو، هر جا در این متن از توهم، منبع‌سازی خیالی یا پاسخ‌های ساختگی سخن می‌رود، مقصود عمدتاً همین خانواده از سامانه‌هاست، نه همه شاخه‌های هوش مصنوعی.

چندی پیش رساله‌ای برای داوری به دستم رسید. هنگام بررسی منابع، با کتابی مواجه شدم که نویسنده‌اش من بودم. این اتفاق در نگاه نخست مایه خوشحالی بود؛ زیرا هر نویسنده‌ای از انتشار کتاب جدید خود خرسند می‌شود! مشکل فقط این بود که من هرگز چنین کتابی ننوشته بودم. پس از پرس‌وجو مشخص شد که دانشجوی محترم اطلاعات کتاب را از هوشواره گرفته است. به بیان دیگر، هوشواره لطف کرده بود و بدون آنکه زحمتی بر دوش من بگذارد، کتابی نیز به آثارم افزوده بود! احتمالاً در روزآمدهای بعدی، زحمتِ رفتن به مراسم اهدای جوایز کتاب سال را هم خواهد کشید!

این تجربه منحصر به من نیست. بسیاری از کاربران بارها با پاسخ‌هایی مواجه شده‌اند که در آن‌ها هوشواره منابعی خیالی خلق کرده، نقل‌قول‌هایی را به افرادی نسبت داده که هرگز بر زبان نیاورده‌اند و گاه چنان با اطمینان پاسخ نادرست داده که انسان ابتدا به دانسته‌های خودش شک کرده است.

 این کاستی فقط در دیار ما رخ نمی‌دهد. در پژوهشی منتشرشده در سال ۲۰۲۶ درباره مقالات و پیش‌انتشارهای سال ۲۰۲۵، ۱۱۱ میلیون ارجاع در حدود دو و نیم میلیون مقاله از چهار پایگاه بزرگ علمی[2] بررسی شد و برآورد محافظه‌کارانه پژوهشگران از وجود ۱۴۶٬۹۳۲ ارجاع ساختگی و ناموجود حکایت داشت؛ ارجاع‌هایی که رد پای هذیان‌سازی مدل‌های زبانی در آن‌ها دیده می‌شد[3].

اما ماجرا فقط به هذیان‌سازی محدود نمی‌شود. هوشواره، به قول حضرت حافظ، تنها طامات نمی‌بافد؛ گاهی نیز جانب‌داری می‌کند و دچار سوگیری می‌شود. نمونه مشهور آن سامانه آزمایشی آمازون برای غربالگری رزومه‌هاست که از حدود سال ۲۰۱۴ توسعه یافت و گزارش رویترز در سال ۲۰۱۸ نشان داد این ابزار به دلیل آموزش بر داده‌های تاریخیِ عمدتاً مردانه، در عمل علیه رزومه‌های زنان سوگیری پیدا کرده بود و کنار گذاشته شد. هدف، یافتن بهترین استعدادها بود؛ اما سامانه ظاهراً تعریف خاصی از «بهترین» داشت و گذشته نابرابر بازار کار را به آینده استخدام منتقل می‌کرد[4].

نمونه دیگر را همین امروز تجربه کردم. از چهار هوشواره پرسیدم: کدام هوشواره کمترین سوگیری و هذیان‌سازی را دارد؟ پاسخ‌ها بسیار آموزنده بود؛ هر چهار سامانه با کمال فروتنی و تواضع، خود را در رتبه نخست معرفی کردند! گویا درسِ خودشیفتگی را در همان ترم‌های اول با نمره بیست گذرانده اند!

این کاستی‌ها در حوزه‌هایی مانند پزشکی، حقوق و امور نظامی می‌تواند پیامدهای جدی داشته باشد. از این رو، شاید عاقلانه‌تر باشد که فعلاً هوشواره را نه یک مرجع معصوم، بلکه دستیاری بسیار باهوش، بسیار مفید و در عین حال گاهی بسیار خیال‌پرداز و سوگیر بدانیم.

حالا این پرسش مطرح می‌شود که این هذیان‌ها و سوگیری‌ها از کجا سر و کله‌شان پیدا می‌شود؟ بخش مهمی از داده‌های آموزشی مدل‌های زبانی از پیکره‌های وب، کتاب‌ها، کدها، منابع دارای مجوز و گاه داده‌های انسانی یا ترکیبی تأمین می‌شود؛ اما وب همچنان یکی از بزرگ‌ترین و مسئله‌سازترین منابع این تغذیه دانشی است. مشکل از همان جایی آغاز می‌شود که وب، نماینده منصف و متوازنی از جهان نیست. توزیع زبان‌ها در اینترنت هیچ شباهت دقیقی به توزیع واقعی جمعیت جهان ندارد. برای نمونه، بر پایه آمارهای به‌روز W3Techs، زبان انگلیسی حدود نیمی از وب‌سایت‌هایی را تشکیل می‌دهد که زبان محتوای آن‌ها شناخته شده است. اگر زبان‌های پرنفوذ اروپایی را نیز به آن بیفزاییم، سهم آن‌ها از محتوای وب بسیار چشمگیرتر می‌شود. می‌توان از این وضعیت با تعبیر «امپریالیسم زبانی وب» یاد کرد؛ یعنی همان حالتی که چند زبان پرنفوذ، بلندگو را در اختیار گرفته‌اند و بقیه زبان‌ها باید از ردیف‌های عقب سالن فریاد بزنند تا شاید شنیده شوند[5].

نتیجه آنکه بخش عمده داده‌های آموزشی هوشواره‌ها از فرهنگ‌ها، قوانین، ارزش‌ها و جهان‌بینی جوامع غربی تغذیه می‌شود. بنابراین حتی وقتی با هوشواره فارسی صحبت می‌کنیم، گاهی احساس می‌کنیم پاسخ‌ها با لهجه فکری یک شهروند اروپای غربی ارائه می‌شوند که اتفاقاً چند کلمه فارسی هم آموخته است. مثلاً وقتی تعارفات معمول ما را می‌شنود، وقتی می‌گوییم: چشم، روی جفت چشام، احتمالاً با خود می‌گوید: این چه رفتار غیرمنطقی‌ای با عضو بینایی است؟

وقتی سامانه‌های تشخیص چهره در شناسایی افراد رنگین‌پوست خطای بیشتری دارند، یا مولدهای تصویر یک هنرمند را ناخودآگاه سفیدپوست‌تر و یک خدمتکار را تیره‌پوست‌تر ترسیم می‌کنند، ماجرا از بدجنسی الگوریتم نیست؛ بلکه از رژیم غذایی نامتوازنی ناشی می‌شود که برای آن تدارک دیده‌اند. هوشواره همان چیزی را بازتاب می‌دهد که بیشتر دیده است؛ و متأسفانه جهان دیجیتال همیشه آینه منصفی از جهان واقعی نبوده است. هوشواره شعور، وجدان یا حس عدالت ندارد؛ او یک «ماشین الگوبرداری» بسیار پیشرفته است. اگر داده‌هایی که به او می‌دهیم سرشار از کلیشه‌ها، نابرایری‌های تاریخی یا کمبود اطلاعات باشد، این ماشین پرتلاش همه آن‌ها را با دقتی مثال‌زدنی به فرمول‌های ریاضی تبدیل می‌کند و گاه سوگیری‌ها را از آنچه بوده‌اند نیز پررنگ‌تر بازمی‌گرداند. به بیان دیگر، هوشواره دروغ‌گو نیست؛ فقط شاگردی است که هرچه را از روی دفتر مشق جهان رونویسی کرده، با خطی خوش‌تر پس می‌دهد.البته به قول حضرت مولانا: « کین حقیقت قابلِ تأویل‌هاست» « وین توهّم مایۀ تخییل‌هاست» حتی حقیقت هم قابلیت تاویل دارد توهم که جای خود دارد!

سوگیری و هذیان‌سازی یک چیز نیستند، اما در بسیاری از موارد از یک خانواده می‌آیند: داده‌های ناقص، نامتوازن، کهنه یا کم‌کیفیت. هر دو می‌توانند یکدیگر را تقویت کنند، بی‌آنکه همیشه رابطه‌ای ساده و خطی میان آن‌ها برقرار باشد. اگر بخواهیم ساده بگوییم، سوگیری گاهی همان ریل قطاری است که هذیان‌سازی روی آن حرکت می‌کند. سه نسبت مهم میان این دو پدیده را می‌توان چنین توضیح داد:

  • نخست: هوشواره بر پایه الگوها و احتمالات کار می‌کند. هرگاه با پرسش روبه‌رو شود که اطلاعات کافی درباره آن ندارد، به قوی‌ترین الگوهای موجود در حافظه آماری خود پناه می‌برد. مشکل آنجاست که این الگوها همیشه حقیقت نیستند؛ گاهی فقط کلیشه‌هایی هستند که لباس حقیقت پوشیده‌اند. برای مثال، اگر درباره فردی گمنام از او پرسش شود و اطلاعات معتبری در اختیار نداشته باشد، ممکن است دست به «خلاقیت ناخواسته» بزند و زندگی‌نامه‌ای تولید کند که هرگز وجود نداشته است. در این فرآیند، سوگیری‌های جنسیتی، قومی یا فرهنگی نیز وارد میدان می‌شوند و شخصیت خیالی تازه‌ای را با مشخصاتی کاملاً آشنا برای ذهن الگوریتم خلق می‌کنند.
  • دوم: سوگیری و هذیان‌سازی، هر دو فرزندان یک خانواده‌اند: داده‌های ناقص یا نامتوازن. همان‌طور که قبلاً بیان شد، سوگیری زمانی شکل می‌گیرد که داده‌های آموزشی بازتاب‌دهنده تبعیض‌ها و عدم تعادل‌های جهان واقعی باشند. هذیان‌سازی نیز زمانی رخ می‌دهد که داده‌ها در موضوعی خاص کم، ناقص، متناقض یا کهنه باشند. در حوزه‌هایی که داده‌های اندکی وجود دارد، هوشواره هم احتمال بیشتری برای سوگیری دارد، چون نمونه‌های متنوع را ندیده است؛ و هم آمادگی بیشتری برای توهم و هذیان‌سازی، چون واقعیت‌های کافی برای پاسخ‌گویی در اختیار ندارد. به زبان ساده، وقتی کتابخانه ذهن الگوریتم نصفه‌ونیمه باشد، هم قضاوتش مشکل پیدا می‌کند و هم حافظه‌اش.
  • سوم: شرکت‌های سازنده هوشواره‌ها از روش‌هایی مانند RLHF (یادگیری تقویت‌شده با بازخورد انسانی)[6] برای کاهش سوگیری‌ها و پاسخ‌های نامناسب استفاده می‌کنند. اما این فرایندهای هم‌راستاسازی نیز بی‌نقص نیستند و گاه می‌توانند به پاسخ‌هایی بیش از حد محافظه‌کارانه، کلی، کم‌خاصیت یا ظاهراً بی‌طرف منجر شوند. در چنین شرایطی، مدل ممکن است به جای پاسخ دقیق و مستند، پاسخی کم‌خطر و اتوکشیده ارائه دهد؛ پاسخی که به ظاهر بی‌حاشیه است، اما الزاماً به حقیقت نزدیک‌تر نیست.

خلاصه ماجرا در یک جمله این است: هوشواره وقتی واقعیت را نمی‌داند، گاهی آن را می‌سازد؛ و مواد اولیه این ساخت‌وساز را نیز معمولاً از سوگیری‌های موجود در داده‌هایش تأمین می‌کند.

اما نکته نگران‌کننده‌تر آن است که برخی از همین خطاها و هذیان‌ها دوباره به چرخه تولید دانش بازمی‌گرداند. فرض کنید میلیون‌ها مقاله تولید شود و بخشی از آن‌ها حاوی ارجاعات ساختگی یا اطلاعات نادرست باشند. بسیاری از این محتواها بعداً وارد منابع آموزشی نسل‌های بعدی هوشواره‌ها می‌شوند، وضعیتی شبیه فتوکپی گرفتن از یک فتوکپی رخ می‌دهد؛یعنی فزونگی نادرستی و هم افزایی توهم و سوگیری. هر بار اندکی از کیفیت حقیقت کاسته می‌شود و اندکی بر وضوح خطا افزوده به گونه ای که ممکن است به فروپاشی مدل منجر شود.. در نهایت هم با نسلی از هوشواره‌ها روبه‌رو می‌شویم که عموزاده‌های دیجیتالیِ «پینوکیو» هستند. با این تفاوت که بینی‌شان در صفحه نمایش جا نمی‌شود!

خوشبختانه شرکت‌های توسعه‌دهنده هوشواره‌ها پیوسته در حال بهبود روش‌های کاهش سوگیری و هذیان‌سازی هستند و کیفیت این سامانه‌ها نسبت به سال‌های نخست به‌طور محسوسی افزایش یافته است. با این حال، مهم‌ترین اصل برای کاربران و متخصصان اطلاعات همچنان پابرجاست: به پاسخ‌های هوشواره‌ها نباید همان‌گونه اعتماد کرد که به ساعت مچی خود اعتماد می‌کنیم؛ بلکه باید با آن‌ها همان‌گونه برخورد کرد که با یک دستیار بسیار باهوش، بسیار پرمطالعه و در عین حال گاه بیش از حد خیال‌پرداز برخورد می‌کنیم.

در اینجاست که نقش کتابداران و متخصصان علم اطلاعات پررنگ می‌شود؛ کسانی که حرفه آنان از دیرباز چیزی جز راستی‌آزمایی، ارزیابی منابع و تمیز دادن دانش از شبه‌دانش نبوده است. هوشواره برای تولید پاسخ‌های دقیق و قابل اعتماد، به داده‌های معتبر، ساخت‌یافته و متوازن نیاز دارد؛ درست همان‌گونه که یک کتابخانه خوب به کتاب‌های معتبر، فهرستی استاندارد و کتابداری حساس به کیفیت نیازمند است. خوشبختانه این دقیقاً همان قلمرویی است که کتابداران و متخصصان علم اطلاعات دهه‌ها در آن تجربه اندوخته‌اند؛ یعنی هنر دیرینه جلوگیری از آنکه هر نوشته‌ای صرفاً به دلیل چاپ شدن، حقیقت تلقی شود.

نقش آن متخصصان را می‌توان در چهار محور اصلی خلاصه کرد:

۱. سازمان‌دهی دانش و معماری داده

بخش مهمی از خطاهای هوشواره ناشی از داده‌های پراکنده و نامعتبر است. این سامانه‌ها مانند معماری‌های RAG[7] برای کاهش هذیان‌سازی به پایگاه‌های دانشیِ سره و ناسره‌نشده نیاز دارند؛ یعنی همان قلمرویی که کتابداران پیش از ظهور هوش مصنوعی نیز در آن تخصص داشتند.

  • گزینش، پالایش و نگهداشت مخازن دانشی (Knowledge Curation):کتابداران منابع علمی و داده‌های تخصصی را ارزیابی و پالایش می‌کنند تا به‌عنوان خوراک باکیفیت به هوشواره تزریق شود. چرا که مواد اولیه آکنده از شایعه و اطلاعات جعلی، فرجامی جز «هذیان‌سازی علمی» ندارد.
  • طراحی فراداده‌ها و هستی‌نگاری‌ها: مدل‌ها برای بازیابی دقیق به فراداده و ساختار نیاز دارند. متخصصان با نمایه‌سازی علمی، به هوشواره کمک می‌کنند میان «شیر جنگل»، «شیر خوراکی» و «شیر آب» تفاوت قائل شود؛ مهارتی که گاه برای انسان‌ها هم دردسرساز است، چه برسد به الگوریتمی که نافش را با زبان انگلیسی بریده‌اند.
  • مدیریت چرخه عمر داده: داده‌های منقضی منبع تولید خطا هستند. متخصصان اطلاعات با روزآمدسازی مستمر پایگاه‌ها، از گرفتار شدن هوشواره در گذشته و معرفی فناوری‌های منسوخ به عنوان «آینده جهان» جلوگیری می‌کنند.

۲. ارزیابی، ممیزی و کشف سوگیری

کتابداران سال‌ها اعتبار منابع را سنجیده‌اند؛ اکنون نوبت ارزیابیِ خودِ این ارزیابان الگوریتمی است.

  • سنجش میزان هذیان‌سازی: متخصصان با طراحی آزمون‌ها بررسی می‌کنند که مدل تا چه حد به واقعیت وفادار است و در چه مواقعی ناگهان استعداد رمان‌نویسی خود را کشف می‌کند.
  • شناسایی سوگیری‌های پنهان: مدل‌های زبانی به دلیل عدم توازن داده‌های وب، دچار سوگیری جغرافیایی و فرهنگی هستند. متخصصان این نابرابری‌ها را شناسایی می‌کنند تا جهان در نگاه هوشواره، شبیه‌تر به واقعیت شود و نه صرفاً بازتاب چند گوشه پرصدای آن.
  • ارزیابی قابلیت ردیابی منابع: متخصصان استانداردهایی برای استناددهی مدل‌ها تدوین می‌کنند تا پاسخ‌ها کمتر شبیه الهامات ناگهانی و بیشتر شبیه نتایج پژوهش باشند؛ چرا که در دنیای علم، فکتِ بدون منبع فاقد ارزش است، حتی اگر با فونت نستعلیق نوشته شده باشد!

۳. آموزش سواد هوشواره و تفکر انتقادی

بزرگ‌ترین خطر، پذیرش بی‌چون‌وچرای خروجی هوشواره به عنوان وحی مُنزل است، در حالی که این پاسخ‌ها صرفاً برآوردهایی آماری هستند.

  • آموزش استفاده انتقادی: کتابداران به کاربران می‌آموزند که پاسخ هوشواره، نقطه آغاز تحقیق است نه پایان آن؛ و یک متن روان و قانع‌کننده لزوماً حقیقت نیست.
  • آموزش پرامپت‌نویسی مسئولانه: نوع پرسش، کیفیت پاسخ را دگرگون می‌کند. هوشواره به سؤال مبهم، پاسخ مبهم می‌دهد. البته گاهی در پاسخ به سؤال دقیق هم راه خود را می‌رود، اما آموزش مهندسی پرامپت این خطا را به حداقل می‌رساند.
  • تقویت مهارت راست آزمایی: آموزش روش‌های تطبیق پاسخ مدل با منابع معتبر دانشگاهی. به بیان ساده، هنر دیرینه «اعتماد کن، اما بررسی هم بکن» در عصر هوش مصنوعی اهمیتی دوچندان یافته است.

۴. اخلاق اطلاعات و عدالت دانشی

هوشواره بازتابی از ساختارهای قدرت، فرهنگ و اقتصاد جوامع توسعه‌دهنده آن است.

  • دفاع از تنوع زبانی و فرهنگی: تلاش برای افزایش سهم زبان‌ها و فرهنگ‌های کم‌نماینده در وب، تا هوشواره تصور نکند تاریخ بشر عمدتاً در چند کشور غربی و به یک زبان رخ داده است.
  • تدوین اصول اخلاقی داده: مشارکت در استانداردسازی حریم خصوصی و مالکیت فکری؛ چرا که فناوری بدون اخلاق، سریع‌تر از آنچه انتظار می‌رود دردسر تولید می‌کند.
  • حمایت از دسترسی آزاد به اطلاعات: جلوگیری از انحصار داده‌های باکیفیت توسط شرکت‌های بزرگ، تا آینده اطلاعات شبیه به یک کتابخانه عمومیِ منصف باشد و نه گاوصندوقی اختصاصی.

سخن پایانی

اگر مهندسان کامپیوتر موتور هوشواره را طراحی می‌کنند، کتابداران و متخصصان علم اطلاعات مسئول کیفیت سوخت، نقشه راه، تابلوهای هشدار، دفترچه راهنما و حتی بخشی از ترمزهای آن هستند. بدون حضور فعال آنان، هوشواره ممکن است در بزرگراهی از داده‌های آلوده، سوگیرانه و نادرست با سرعتی خیره‌کننده حرکت کند؛ وضعیتی که بسیار خطیر است. اما با مشارکت این متخصصان، می‌توان امیدوار بود که این راننده تازه‌کارِ بسیار پرحافظه، نه‌تنها سریع‌تر، بلکه عاقلانه‌تر و منصفانه‌تر نیز حرکت کند.  گرایش هوش مصنوعی در علم اطلاعات و دانش‌شناسی به تصویب رسیده است . البته باید امیدوار باشیم در بعضی گروه ها با آن  صوری برخورد نشود.با این مصوبه مسئولیت متخصصان این حوزه در فهم، نقد، ارزیابی و هدایت مسئولانه هوشواره‌ها دوچندان شده است. اکنون زمان آن است که کتابداران نه صرفاً مصرف‌کننده هوشواره‌ها، بلکه شریک انتقادی، اخلاقی و حرفه‌ای در ساخت آینده دانشی آن‌ها باشند[8].

 

خسروی ، فریبرز (۱۴۰۵). « طامات‌بافی هوشواره‌ها: سوگیری و توهم ». سخن هفته لیزنا، شماره 796، 25 خرداد‌ ماه ۱۴۰۵

 


[1] Hallucination

[2] پایگاه‌های پیش‌انتشار و داوری‌همتا شامل: arXiv، bioRxiv،  SSRN و .PubMed Central (PMC)

[3] Zhao, Z., Wang, Y., Stuart, T., De Vaan, M., Ginsparg, P., & Yin, Y. (2026). LLM hallucinations in the wild: Large-scale evidence from non-existent citations. arXiv preprint arXiv:2605.07723. https://doi.org/10.48550/arXiv.2605.07723

[4] Dastin, J. (2018). Amazon scraps secret AI recruiting tool that showed bias against women. Reuters. https://www.reuters.com/article/us-amazon-com-jobs-automation-insight-idUSKCN1MK08G

 

[5] W3Techs. (2026). Usage percentages of content languages for websites. https://w3techs.com/technologies/overview/content_language

 

[6] Reinforcement Learning from Human Feedback

[7] Retrieval-Augmented Generation

[8] درتدوین این یادداشت از هوشواره بهره برده‌ام.