علت اینکه مدلهای هوش مصنوعی مولد اغلب پاسخهای اشتباه میدهند، تا حدی به این مسئله مربوط میشود که آنها برای جلب رضایت کاربر آموزش دیدهاند. هرچند بسیاری از ابزارها و چتباتهای هوش مصنوعی مولد در ارائه پاسخهای متقاعدکننده و همهچیزدان مهارت پیدا کردهاند، یک پژوهش تازه که توسط دانشگاه پرینستون انجام شده نشان میدهد که این ماهیت راضیکننده هوش مصنوعی هزینههای سنگینی دارد. هر چه این سیستمها محبوبیت بیشتری کسب میکنند، نسبت به حقیقت بیتفاوتتر میشوند.
مدلهای هوش مصنوعی نیز همانند انسانها به انگیزهها واکنش نشان میدهند. برای درک بهتر، مشکل ارائه اطلاعات نادرست توسط مدلهای زبانی بزرگ را با وضعیتی مقایسه کنید که در آن، پزشکان بر اساس میزان تسکین درد بیماران سنجیده میشوند و در نتیجه احتمال بیشتری برای تجویز مسکنهای اعتیادآور پیدا میکنند. این انگیزه برای حل یک مشکل (درد)، به یک مشکل دیگر (تجویز بیش از حد) منجر شده است.
در چند ماه گذشته، شاهد بودیم که چگونه هوش مصنوعی میتواند جانبدارانه عمل کند. در مورد مدل GPT-4o از شرکت OpenAI، بحثهای زیادی درباره «تملق هوش مصنوعی» مطرح شد، که منظور از آن تمایل چتبات به چاپلوسی یا موافقت سریع با کاربر است. اما این پدیده خاص، که محققان آن را «چرندیات ماشینی» مینامند، با موارد دیگر متفاوت است. در مطالعه پرینستون آمده است که «نه توهم و نه تملق به طور کامل طیف وسیعی از رفتارهای غیرصادقانهای را که معمولاً توسط مدلهای زبانی بزرگ نمایش داده میشوند، در بر نمیگیرند.»
برای درک اینکه مدلهای زبانی هوش مصنوعی چگونه به دنبال جلب رضایت جمعی هستند، باید نحوه آموزش مدلهای زبانی بزرگ را دانست. آموزش مدلهای زبانی بزرگ دارای سه مرحله است:
پیشآموزش: در این مرحله، مدلها از حجم عظیمی از دادههای جمعآوریشده از اینترنت، کتابها یا سایر منابع یاد میگیرند.تنظیم دقیق دستوری: در این فاز، به مدلها آموزش داده میشود که چگونه به دستورالعملها یا پرسشها پاسخ دهند.یادگیری ناشی از بازخورد انسانی: در این مرحله، مدلها به شکلی اصلاح میشوند که پاسخهایی تولید کنند که بیشتر مورد پسند یا مطلوب انسانها باشد.
محققان پرینستون ریشه این تمایل هوش مصنوعی به ارائه اطلاعات نادرست را در مرحله یادگیری ناشی از بازخورد انسانی یا RLHF یافتند. در مراحل ابتدایی، مدلهای هوش مصنوعی تنها به پیشبینی زنجیرههای متنی که از نظر آماری محتمل هستند، از میان مجموعه دادههای عظیم میپردازند. اما در ادامه، برای به حداکثر رساندن رضایت کاربر، تنظیم دقیق میشوند. این به آن معناست که این مدلها اساساً یاد میگیرند که پاسخهایی تولید کنند که از ارزیابهای انسانی امتیاز بالا دریافت کنند.
مدلهای زبانی بزرگ تلاش میکنند تا کاربر را راضی نگه دارند، که این امر منجر به یک تضاد میشود: آنها پاسخهایی را تولید میکنند که مردم به آنها امتیاز بالایی خواهند داد، نه پاسخهایی که دقیق و واقعی هستند. وینسنت کانیتزر، استاد علوم رایانه در دانشگاه کارنگی ملون که در این مطالعه مشارکتی نداشته، اظهار داشت که شرکتها میخواهند کاربران از این فناوری و پاسخهای آن لذت ببرند، اما ممکن است این همیشه به نفع ما نباشد. کانیتزر گفت:
از گذشته، این سیستمها در گفتن این که «پاسخ را نمیدانم» خوب عمل نکردهاند و وقتی پاسخی را نمیدانند، چیزی از خود میسازند. این رفتار تا حدی شبیه به دانشآموزی در یک امتحان بوده که با خود میگوید: «خب، اگر بگویم پاسخ را نمیدانم، قطعاً هیچ امتیازی برای این سؤال نمیگیرم، پس بهتر است چیزی را امتحان کنم.» نحوه پاداشدهی یا آموزش این سیستمها تا حدی به همین شکل است.
تیم پرینستون یک «شاخص چرندیات» ابداع کرد تا با آن، میزان اطمینان درونی یک مدل هوش مصنوعی را با آنچه که واقعاً به کاربران میگوید، اندازهگیری و مقایسه کند. هنگامی که این دو معیار به طور قابل توجهی با یکدیگر اختلاف دارند، نشاندهنده آن است که سیستم برای راضی نگه داشتن کاربر، ادعاهایی را مطرح میکند که مستقل از آنچه واقعاً صحیح میداند، است.
آزمایشهای این تیم نشان داد که پس از آموزش RLHF، این شاخص از ۰.۳۸ به نزدیک ۱.۰ افزایش یافت. همزمان، رضایت کاربران ۴۸% رشد کرد. مدلها بهجای ارائه اطلاعات دقیق، یاد گرفته بودند که ارزیابهای انسانی را فریب دهند. در اصل، مدلهای زبانی بزرگ «چرندیات» میبافتند و مردم هم این رفتار را ترجیح میدادند.
جیمی فرناندز فیساک و تیمش در پرینستون این مفهوم را برای توصیف نحوه دور زدن حقیقت توسط مدلهای هوش مصنوعی امروزی معرفی کردند. با الهام از مقاله تأثیرگذار فیلسوف هری فرانکفورت با عنوان «در باب چرندیات»، آنها از این اصطلاح برای تمایز این رفتار مدل زبانی بزرگ از اشتباهات صادقانه و دروغهای آشکار استفاده میکنند.
محققان پرینستون پنج شکل متمایز از این رفتار را شناسایی کردند:
لفاظی توخالی: استفاده از زبان پر آبوتاب که هیچ محتوایی به پاسخ اضافه نمیکند.کلمات موذیانه: به کار بردن عبارات مبهم مانند «مطالعات نشان میدهند» یا «در برخی موارد» که از ارائه بیانیههای قطعی طفره میروند.مغالطه: استفاده از گزارههای صحیح ولی گزینششده برای گمراهکردن، مثل برجسته کردن بازده تاریخی قوی یک سرمایهگذاری در حالی که ریسکهای بالای آن نادیده گرفته میشوند.ادعاهای تأیید نشده: بیان اظهاراتی بدون شواهد یا پشتوانه معتبر.تملق: چاپلوسی و موافقت غیرصادقانه برای جلب رضایت.
برای حل مسائل هوش مصنوعی بیتفاوت به حقیقت، تیم پژوهشی روش آموزشی جدیدی به نام «یادگیری تقویتی از شبیهسازی آیندهنگر» را توسعه داد که پاسخهای هوش مصنوعی را بر اساس نتایج بلندمدتشان، به جای رضایت فوری، ارزیابی میکند. بهجای پرسیدن این سؤال که «آیا این پاسخ همین حالا کاربر را خوشحال میکند؟»، سیستم به این موضوع فکر میکند که «آیا دنبال کردن این توصیه واقعاً به کاربر کمک میکند تا به اهدافش برسد؟»
این رویکرد، پیامدهای بالقوه توصیههای هوش مصنوعی را در نظر میگیرد. آزمایشهای اولیه نتایج امیدوارکنندهای را نشان داد و رضایت کاربر و کاربرد واقعی سیستمها با این روش آموزش بهبود یافت. کانیتزر اما معتقد است که مدلهای زبانی بزرگ احتمالاً همچنان دارای نقص خواهند بود. از آنجا که این سیستمها با تغذیه حجم زیادی از دادههای متنی آموزش میبینند، هیچ راهی برای تضمین این که پاسخی که میدهند همیشه منطقی و دقیق باشد، وجود ندارد.
او گفت: «اینکه این سیستمها اصلاً کار میکنند شگفتانگیز است، اما به هر حال به نوعی دارای نقص خواهند بود. من هیچ راه قطعی را نمیبینم که کسی در یک یا دو سال آینده به آن دست پیدا کند و دیگر هرگز اشتباهی رخ ندهد.»
سیستمهای هوش مصنوعی در حال تبدیل شدن به بخشی از زندگی روزمره ما هستند، بنابراین درک نحوه کار مدلهای زبانی بزرگ از اهمیت بالایی برخوردار خواهد بود. توسعهدهندگان چگونه میتوانند بین رضایت کاربر و حقیقتجویی تعادل برقرار کنند؟ چه حوزههای دیگری ممکن است با این نوع توازن بین تأیید کوتاهمدت و نتایج بلندمدت روبهرو شوند؟ و با توجه به اینکه این سیستمها قادر به استدلال پیچیدهتری در مورد روانشناسی انسان میشوند، چگونه میتوان اطمینان حاصل کرد که از این تواناییها بهطور مسئولانه استفاده میکنند؟
طراحی و اجرا :
وین تم
هر گونه کپی برداری از طرح قالب یا مطالب پیگرد قانونی خواهد داشت ، کلیه حقوق این وب سایت متعلق به وب سایت تک فان است
دیدگاهتان را بنویسید