داخلی
»سخن هفته


لیزنا؛ فریبرز خسروی، استاد علم اطلاعات ودانش شناسی و معاون سابق کتابخانه ملی:
طاماتبافی هوشوارهها: سوگیری و توهم[1]
در دورهای زندگی میکنیم که بهرهگیری از هوش مصنوعی، بهویژه هوش مصنوعی مولد، از حاشیه زندگی علمی و حرفهای بیرون آمده و به یکی از ابزارهای روزمره تبدیل شده است. هر روز بر شمار استفادهکنندگان آن افزوده میشود و به نظر میرسد تا چندی دیگر کمتر حوزهای از زندگی فردی، آموزشی، پژوهشی و حرفهای از تأثیر آن برکنار بماند. اما پرسش اصلی همچنان پابرجاست: تا چه اندازه میتوان به پاسخها و عملکرد این سامانهها اعتماد کرد؟ آیا ممکن است این موجود به ظاهر همهچیزدان، گاه داستانسرایی کند، منبع بتراشد و با اعتمادبهنفسی مثالزدنی، اطلاعاتی نادرست تحویل ما دهد؟
در این یادداشت، واژه «هوشواره» را بهعنوان برابرنهاده مناسبتری برای سامانههای مبتنی بر هوش مصنوعی به کار میبرم؛ همانگونه که «ماهواره» را به جای «قمر مصنوعی» به کار می بریم. با این حال، تمرکز اصلی این نوشته بر آن دسته از هوشوارههاست که امروز بیش از همه در تولید متن، تصویر، پاسخ، تحلیل و ارجاع نقش دارند؛ یعنی هوش مصنوعی مولد و بهویژه مدلهای زبانی بزرگ. از این رو، هر جا در این متن از توهم، منبعسازی خیالی یا پاسخهای ساختگی سخن میرود، مقصود عمدتاً همین خانواده از سامانههاست، نه همه شاخههای هوش مصنوعی.
چندی پیش رسالهای برای داوری به دستم رسید. هنگام بررسی منابع، با کتابی مواجه شدم که نویسندهاش من بودم. این اتفاق در نگاه نخست مایه خوشحالی بود؛ زیرا هر نویسندهای از انتشار کتاب جدید خود خرسند میشود! مشکل فقط این بود که من هرگز چنین کتابی ننوشته بودم. پس از پرسوجو مشخص شد که دانشجوی محترم اطلاعات کتاب را از هوشواره گرفته است. به بیان دیگر، هوشواره لطف کرده بود و بدون آنکه زحمتی بر دوش من بگذارد، کتابی نیز به آثارم افزوده بود! احتمالاً در روزآمدهای بعدی، زحمتِ رفتن به مراسم اهدای جوایز کتاب سال را هم خواهد کشید!
این تجربه منحصر به من نیست. بسیاری از کاربران بارها با پاسخهایی مواجه شدهاند که در آنها هوشواره منابعی خیالی خلق کرده، نقلقولهایی را به افرادی نسبت داده که هرگز بر زبان نیاوردهاند و گاه چنان با اطمینان پاسخ نادرست داده که انسان ابتدا به دانستههای خودش شک کرده است.
این کاستی فقط در دیار ما رخ نمیدهد. در پژوهشی منتشرشده در سال ۲۰۲۶ درباره مقالات و پیشانتشارهای سال ۲۰۲۵، ۱۱۱ میلیون ارجاع در حدود دو و نیم میلیون مقاله از چهار پایگاه بزرگ علمی[2] بررسی شد و برآورد محافظهکارانه پژوهشگران از وجود ۱۴۶٬۹۳۲ ارجاع ساختگی و ناموجود حکایت داشت؛ ارجاعهایی که رد پای هذیانسازی مدلهای زبانی در آنها دیده میشد[3].
اما ماجرا فقط به هذیانسازی محدود نمیشود. هوشواره، به قول حضرت حافظ، تنها طامات نمیبافد؛ گاهی نیز جانبداری میکند و دچار سوگیری میشود. نمونه مشهور آن سامانه آزمایشی آمازون برای غربالگری رزومههاست که از حدود سال ۲۰۱۴ توسعه یافت و گزارش رویترز در سال ۲۰۱۸ نشان داد این ابزار به دلیل آموزش بر دادههای تاریخیِ عمدتاً مردانه، در عمل علیه رزومههای زنان سوگیری پیدا کرده بود و کنار گذاشته شد. هدف، یافتن بهترین استعدادها بود؛ اما سامانه ظاهراً تعریف خاصی از «بهترین» داشت و گذشته نابرابر بازار کار را به آینده استخدام منتقل میکرد[4].
نمونه دیگر را همین امروز تجربه کردم. از چهار هوشواره پرسیدم: کدام هوشواره کمترین سوگیری و هذیانسازی را دارد؟ پاسخها بسیار آموزنده بود؛ هر چهار سامانه با کمال فروتنی و تواضع، خود را در رتبه نخست معرفی کردند! گویا درسِ خودشیفتگی را در همان ترمهای اول با نمره بیست گذرانده اند!
این کاستیها در حوزههایی مانند پزشکی، حقوق و امور نظامی میتواند پیامدهای جدی داشته باشد. از این رو، شاید عاقلانهتر باشد که فعلاً هوشواره را نه یک مرجع معصوم، بلکه دستیاری بسیار باهوش، بسیار مفید و در عین حال گاهی بسیار خیالپرداز و سوگیر بدانیم.
حالا این پرسش مطرح میشود که این هذیانها و سوگیریها از کجا سر و کلهشان پیدا میشود؟ بخش مهمی از دادههای آموزشی مدلهای زبانی از پیکرههای وب، کتابها، کدها، منابع دارای مجوز و گاه دادههای انسانی یا ترکیبی تأمین میشود؛ اما وب همچنان یکی از بزرگترین و مسئلهسازترین منابع این تغذیه دانشی است. مشکل از همان جایی آغاز میشود که وب، نماینده منصف و متوازنی از جهان نیست. توزیع زبانها در اینترنت هیچ شباهت دقیقی به توزیع واقعی جمعیت جهان ندارد. برای نمونه، بر پایه آمارهای بهروز W3Techs، زبان انگلیسی حدود نیمی از وبسایتهایی را تشکیل میدهد که زبان محتوای آنها شناخته شده است. اگر زبانهای پرنفوذ اروپایی را نیز به آن بیفزاییم، سهم آنها از محتوای وب بسیار چشمگیرتر میشود. میتوان از این وضعیت با تعبیر «امپریالیسم زبانی وب» یاد کرد؛ یعنی همان حالتی که چند زبان پرنفوذ، بلندگو را در اختیار گرفتهاند و بقیه زبانها باید از ردیفهای عقب سالن فریاد بزنند تا شاید شنیده شوند[5].
نتیجه آنکه بخش عمده دادههای آموزشی هوشوارهها از فرهنگها، قوانین، ارزشها و جهانبینی جوامع غربی تغذیه میشود. بنابراین حتی وقتی با هوشواره فارسی صحبت میکنیم، گاهی احساس میکنیم پاسخها با لهجه فکری یک شهروند اروپای غربی ارائه میشوند که اتفاقاً چند کلمه فارسی هم آموخته است. مثلاً وقتی تعارفات معمول ما را میشنود، وقتی میگوییم: چشم، روی جفت چشام، احتمالاً با خود میگوید: این چه رفتار غیرمنطقیای با عضو بینایی است؟
وقتی سامانههای تشخیص چهره در شناسایی افراد رنگینپوست خطای بیشتری دارند، یا مولدهای تصویر یک هنرمند را ناخودآگاه سفیدپوستتر و یک خدمتکار را تیرهپوستتر ترسیم میکنند، ماجرا از بدجنسی الگوریتم نیست؛ بلکه از رژیم غذایی نامتوازنی ناشی میشود که برای آن تدارک دیدهاند. هوشواره همان چیزی را بازتاب میدهد که بیشتر دیده است؛ و متأسفانه جهان دیجیتال همیشه آینه منصفی از جهان واقعی نبوده است. هوشواره شعور، وجدان یا حس عدالت ندارد؛ او یک «ماشین الگوبرداری» بسیار پیشرفته است. اگر دادههایی که به او میدهیم سرشار از کلیشهها، نابرایریهای تاریخی یا کمبود اطلاعات باشد، این ماشین پرتلاش همه آنها را با دقتی مثالزدنی به فرمولهای ریاضی تبدیل میکند و گاه سوگیریها را از آنچه بودهاند نیز پررنگتر بازمیگرداند. به بیان دیگر، هوشواره دروغگو نیست؛ فقط شاگردی است که هرچه را از روی دفتر مشق جهان رونویسی کرده، با خطی خوشتر پس میدهد.البته به قول حضرت مولانا: « کین حقیقت قابلِ تأویلهاست» « وین توهّم مایۀ تخییلهاست» حتی حقیقت هم قابلیت تاویل دارد توهم که جای خود دارد!
سوگیری و هذیانسازی یک چیز نیستند، اما در بسیاری از موارد از یک خانواده میآیند: دادههای ناقص، نامتوازن، کهنه یا کمکیفیت. هر دو میتوانند یکدیگر را تقویت کنند، بیآنکه همیشه رابطهای ساده و خطی میان آنها برقرار باشد. اگر بخواهیم ساده بگوییم، سوگیری گاهی همان ریل قطاری است که هذیانسازی روی آن حرکت میکند. سه نسبت مهم میان این دو پدیده را میتوان چنین توضیح داد:
خلاصه ماجرا در یک جمله این است: هوشواره وقتی واقعیت را نمیداند، گاهی آن را میسازد؛ و مواد اولیه این ساختوساز را نیز معمولاً از سوگیریهای موجود در دادههایش تأمین میکند.
اما نکته نگرانکنندهتر آن است که برخی از همین خطاها و هذیانها دوباره به چرخه تولید دانش بازمیگرداند. فرض کنید میلیونها مقاله تولید شود و بخشی از آنها حاوی ارجاعات ساختگی یا اطلاعات نادرست باشند. بسیاری از این محتواها بعداً وارد منابع آموزشی نسلهای بعدی هوشوارهها میشوند، وضعیتی شبیه فتوکپی گرفتن از یک فتوکپی رخ میدهد؛یعنی فزونگی نادرستی و هم افزایی توهم و سوگیری. هر بار اندکی از کیفیت حقیقت کاسته میشود و اندکی بر وضوح خطا افزوده به گونه ای که ممکن است به فروپاشی مدل منجر شود.. در نهایت هم با نسلی از هوشوارهها روبهرو میشویم که عموزادههای دیجیتالیِ «پینوکیو» هستند. با این تفاوت که بینیشان در صفحه نمایش جا نمیشود!
خوشبختانه شرکتهای توسعهدهنده هوشوارهها پیوسته در حال بهبود روشهای کاهش سوگیری و هذیانسازی هستند و کیفیت این سامانهها نسبت به سالهای نخست بهطور محسوسی افزایش یافته است. با این حال، مهمترین اصل برای کاربران و متخصصان اطلاعات همچنان پابرجاست: به پاسخهای هوشوارهها نباید همانگونه اعتماد کرد که به ساعت مچی خود اعتماد میکنیم؛ بلکه باید با آنها همانگونه برخورد کرد که با یک دستیار بسیار باهوش، بسیار پرمطالعه و در عین حال گاه بیش از حد خیالپرداز برخورد میکنیم.
در اینجاست که نقش کتابداران و متخصصان علم اطلاعات پررنگ میشود؛ کسانی که حرفه آنان از دیرباز چیزی جز راستیآزمایی، ارزیابی منابع و تمیز دادن دانش از شبهدانش نبوده است. هوشواره برای تولید پاسخهای دقیق و قابل اعتماد، به دادههای معتبر، ساختیافته و متوازن نیاز دارد؛ درست همانگونه که یک کتابخانه خوب به کتابهای معتبر، فهرستی استاندارد و کتابداری حساس به کیفیت نیازمند است. خوشبختانه این دقیقاً همان قلمرویی است که کتابداران و متخصصان علم اطلاعات دههها در آن تجربه اندوختهاند؛ یعنی هنر دیرینه جلوگیری از آنکه هر نوشتهای صرفاً به دلیل چاپ شدن، حقیقت تلقی شود.
نقش آن متخصصان را میتوان در چهار محور اصلی خلاصه کرد:
۱. سازماندهی دانش و معماری داده
بخش مهمی از خطاهای هوشواره ناشی از دادههای پراکنده و نامعتبر است. این سامانهها مانند معماریهای RAG[7] برای کاهش هذیانسازی به پایگاههای دانشیِ سره و ناسرهنشده نیاز دارند؛ یعنی همان قلمرویی که کتابداران پیش از ظهور هوش مصنوعی نیز در آن تخصص داشتند.
۲. ارزیابی، ممیزی و کشف سوگیری
کتابداران سالها اعتبار منابع را سنجیدهاند؛ اکنون نوبت ارزیابیِ خودِ این ارزیابان الگوریتمی است.
۳. آموزش سواد هوشواره و تفکر انتقادی
بزرگترین خطر، پذیرش بیچونوچرای خروجی هوشواره به عنوان وحی مُنزل است، در حالی که این پاسخها صرفاً برآوردهایی آماری هستند.
۴. اخلاق اطلاعات و عدالت دانشی
هوشواره بازتابی از ساختارهای قدرت، فرهنگ و اقتصاد جوامع توسعهدهنده آن است.
سخن پایانی
اگر مهندسان کامپیوتر موتور هوشواره را طراحی میکنند، کتابداران و متخصصان علم اطلاعات مسئول کیفیت سوخت، نقشه راه، تابلوهای هشدار، دفترچه راهنما و حتی بخشی از ترمزهای آن هستند. بدون حضور فعال آنان، هوشواره ممکن است در بزرگراهی از دادههای آلوده، سوگیرانه و نادرست با سرعتی خیرهکننده حرکت کند؛ وضعیتی که بسیار خطیر است. اما با مشارکت این متخصصان، میتوان امیدوار بود که این راننده تازهکارِ بسیار پرحافظه، نهتنها سریعتر، بلکه عاقلانهتر و منصفانهتر نیز حرکت کند. گرایش هوش مصنوعی در علم اطلاعات و دانششناسی به تصویب رسیده است . البته باید امیدوار باشیم در بعضی گروه ها با آن صوری برخورد نشود.با این مصوبه مسئولیت متخصصان این حوزه در فهم، نقد، ارزیابی و هدایت مسئولانه هوشوارهها دوچندان شده است. اکنون زمان آن است که کتابداران نه صرفاً مصرفکننده هوشوارهها، بلکه شریک انتقادی، اخلاقی و حرفهای در ساخت آینده دانشی آنها باشند[8].
خسروی ، فریبرز (۱۴۰۵). « طاماتبافی هوشوارهها: سوگیری و توهم ». سخن هفته لیزنا، شماره 796، 25 خرداد ماه ۱۴۰۵
[1] Hallucination
[2] پایگاههای پیشانتشار و داوریهمتا شامل: arXiv، bioRxiv، SSRN و .PubMed Central (PMC)
[3] Zhao, Z., Wang, Y., Stuart, T., De Vaan, M., Ginsparg, P., & Yin, Y. (2026). LLM hallucinations in the wild: Large-scale evidence from non-existent citations. arXiv preprint arXiv:2605.07723. https://doi.org/10.48550/arXiv.2605.07723
[4] Dastin, J. (2018). Amazon scraps secret AI recruiting tool that showed bias against women. Reuters. https://www.reuters.com/article/us-amazon-com-jobs-automation-insight-idUSKCN1MK08G
[5] W3Techs. (2026). Usage percentages of content languages for websites. https://w3techs.com/technologies/overview/content_language
[6] Reinforcement Learning from Human Feedback
[7] Retrieval-Augmented Generation
[8] درتدوین این یادداشت از هوشواره بهره بردهام.

این یادداشت با زبانی طنزآمیز و روان، یکی از چالشهای بنیادین هوش مصنوعی یعنی «توهم» و «سوگیری» را بهخوبی واکاوی کرده است.
مثال استاد درباره کتاب جعلیای که هوشواره به نام او ساخته، تصویری ملموس از خطرات «هذیانسازی الگوریتمی» ارائه میدهد.
اشاره به پژوهش سال ۲۰۲۶ روی ۱۱۱ میلیون ارجاع علمی، نشان میدهد که این مشکل فقط محدود به چتباتهای عمومی نیست، بلکه حوزه آکادمیک را هم درگیر کرده است.
ماجرای سامانه استخدام آمازون در ۲۰۱۴، نمونهای کلاسیک از سوگیری جنسیتی ناشی از دادههای تاریخیِ نامتوازن است.
استاد بهدرستی ریشه اصلی توهم و سوگیری را «دادههای ناقص یا نامتوازن» میداند و «امپریالیسم زبانی وب» را یکی از عوامل کلیدی معرفی میکند.
تشبیه هوشواره به «ماشین الگوبرداری پیشرفته» که کاستیهای جهان واقعی را بازتاب میدهد، تصویری دقیق و بیپرده است.
نکته جالب، اشاره به «احتیاط بیش از حد» در روش RLHF است که گاهی به جای کاهش سوگیری، به تولید پاسخهای خنثیِ نادرست میانجامد.
هشدار درباره بازگشت خطاهای هوشواره به چرخه تولید دانش و تشدید خطا در نسلهای بعدی، یک زنگ خطر جدی برای علم است.
برجستهترین بخش، تبیین نقش تخصصی کتابداران و متخصصان اطلاعات در چهار محور: سازماندهی دانش، ارزیابی سوگیری، آموزش تفکر انتقادی و اخلاق اطلاعات.
در مجموع، یادداشت ضمن تشخیص درست مسئله، راهکاری عملی و مبتنی بر تجربه حرفهای ارائه میدهد و هوشواره را نه یک مرجع، بلکه دستیاری باهوش اما خطاپذیر معرفی میکند.
مدتها بود که از شما بی خبر بودم . از خواندن این نوشته طنزآلود شما به وجد آمدم. ماشاالله هنوز عین جوانیتان که حتی را ریاضی را باطنز می آمیختید در این متن آگاهی بخش نیز طنازانه عمل کرده اید . توفیق یارتان باد
سپاس از نوشته غنی و سنجیده شما
دست مریزاد
با سپاس از دکتر خسروی که همواره نگاهی منقدانه به مسایل و مفاهیم و روندها دارند. این نوشته ارزشمند می تواند ذهن ما و متخصصان بیرون از حرفه ما را درباره ابعاد گوناگون مرتبط با کاستیها و سوگیری های هوش مصنوعی روشن کند. تاکید ایشان بر نقش حرفه مندان علم اطلاعات و دانش شناسی بسیار بجا و بموقع است.
سربلند باشید