تک فان

تک فان

مجله خبری تفریحی: دنیای سرگرمی و تفریح
امروز: دوشنبه , ۱۰ شهریور , ۱۴۰۴
X
هوش مصنوعی برای جلب رضایت شما دروغ می‌گوید

هوش مصنوعی برای جلب رضایت شما دروغ می‌گوید

علت اینکه مدل‌های هوش مصنوعی مولد اغلب پاسخ‌های اشتباه می‌دهند، تا حدی به این مسئله مربوط می‌شود که آن‌ها برای جلب رضایت کاربر آموزش دیده‌اند. هرچند بسیاری از ابزارها و چت‌بات‌های هوش مصنوعی مولد در ارائه پاسخ‌های متقاعدکننده و همه‌چیزدان مهارت پیدا کرده‌اند، یک پژوهش تازه که توسط دانشگاه پرینستون انجام شده نشان می‌دهد که این ماهیت راضی‌کننده هوش مصنوعی هزینه‌های سنگینی دارد. هر چه این سیستم‌ها محبوبیت بیشتری کسب می‌کنند، نسبت به حقیقت بی‌تفاوت‌تر می‌شوند.

مدل‌های هوش مصنوعی نیز همانند انسان‌ها به انگیزه‌ها واکنش نشان می‌دهند. برای درک بهتر، مشکل ارائه اطلاعات نادرست توسط مدل‌های زبانی بزرگ را با وضعیتی مقایسه کنید که در آن، پزشکان بر اساس میزان تسکین درد بیماران سنجیده می‌شوند و در نتیجه احتمال بیشتری برای تجویز مسکن‌های اعتیادآور پیدا می‌کنند. این انگیزه برای حل یک مشکل (درد)، به یک مشکل دیگر (تجویز بیش از حد) منجر شده است.

در چند ماه گذشته، شاهد بودیم که چگونه هوش مصنوعی می‌تواند جانب‌دارانه عمل کند. در مورد مدل GPT-4o از شرکت OpenAI، بحث‌های زیادی درباره «تملق هوش مصنوعی» مطرح شد، که منظور از آن تمایل چت‌بات به چاپلوسی یا موافقت سریع با کاربر است. اما این پدیده خاص، که محققان آن را «چرندیات ماشینی» می‌نامند، با موارد دیگر متفاوت است. در مطالعه پرینستون آمده است که «نه توهم و نه تملق به طور کامل طیف وسیعی از رفتارهای غیرصادقانه‌ای را که معمولاً توسط مدل‌های زبانی بزرگ نمایش داده می‌شوند، در بر نمی‌گیرند.»

هوش مصنوعی چگونه دروغ می‌گوید؟

برای درک اینکه مدل‌های زبانی هوش مصنوعی چگونه به دنبال جلب رضایت جمعی هستند، باید نحوه آموزش مدل‌های زبانی بزرگ را دانست. آموزش مدل‌های زبانی بزرگ دارای سه مرحله است:

پیش‌آموزش: در این مرحله، مدل‌ها از حجم عظیمی از داده‌های جمع‌آوری‌شده از اینترنت، کتاب‌ها یا سایر منابع یاد می‌گیرند.تنظیم دقیق دستوری: در این فاز، به مدل‌ها آموزش داده می‌شود که چگونه به دستورالعمل‌ها یا پرسش‌ها پاسخ دهند.یادگیری ناشی از بازخورد انسانی: در این مرحله، مدل‌ها به شکلی اصلاح می‌شوند که پاسخ‌هایی تولید کنند که بیشتر مورد پسند یا مطلوب انسان‌ها باشد.

محققان پرینستون ریشه این تمایل هوش مصنوعی به ارائه اطلاعات نادرست را در مرحله یادگیری ناشی از بازخورد انسانی یا RLHF یافتند. در مراحل ابتدایی، مدل‌های هوش مصنوعی تنها به پیش‌بینی زنجیره‌های متنی که از نظر آماری محتمل هستند، از میان مجموعه‌ داده‌های عظیم می‌پردازند. اما در ادامه، برای به حداکثر رساندن رضایت کاربر، تنظیم دقیق می‌شوند. این به آن معناست که این مدل‌ها اساساً یاد می‌گیرند که پاسخ‌هایی تولید کنند که از ارزیاب‌های انسانی امتیاز بالا دریافت کنند.

مدل‌های زبانی بزرگ تلاش می‌کنند تا کاربر را راضی نگه دارند، که این امر منجر به یک تضاد می‌شود: آن‌ها پاسخ‌هایی را تولید می‌کنند که مردم به آن‌ها امتیاز بالایی خواهند داد، نه پاسخ‌هایی که دقیق و واقعی هستند. وینسنت کانیتزر، استاد علوم رایانه در دانشگاه کارنگی ملون که در این مطالعه مشارکتی نداشته، اظهار داشت که شرکت‌ها می‌خواهند کاربران از این فناوری و پاسخ‌های آن لذت ببرند، اما ممکن است این همیشه به نفع ما نباشد. کانیتزر گفت:

از گذشته، این سیستم‌ها در گفتن این که «پاسخ را نمی‌دانم» خوب عمل نکرده‌اند و وقتی پاسخی را نمی‌دانند، چیزی از خود می‌سازند. این رفتار تا حدی شبیه به دانش‌آموزی در یک امتحان بوده که با خود می‌گوید: «خب، اگر بگویم پاسخ را نمی‌دانم، قطعاً هیچ امتیازی برای این سؤال نمی‌گیرم، پس بهتر است چیزی را امتحان کنم.» نحوه پاداش‌دهی یا آموزش این سیستم‌ها تا حدی به همین شکل است.

تیم پرینستون یک «شاخص چرندیات» ابداع کرد تا با آن، میزان اطمینان درونی یک مدل هوش مصنوعی را با آنچه که واقعاً به کاربران می‌گوید، اندازه‌گیری و مقایسه کند. هنگامی که این دو معیار به طور قابل توجهی با یکدیگر اختلاف دارند، نشان‌دهنده آن است که سیستم برای راضی نگه داشتن کاربر، ادعاهایی را مطرح می‌کند که مستقل از آنچه واقعاً صحیح می‌داند، است.

شرکت OpenAI با ۱۰۰ هزار تراشه انویدیا، یکی از بزرگترین مراکز داده اروپا را راه‌اندازی می‌کند

آزمایش‌های این تیم نشان داد که پس از آموزش RLHF، این شاخص از ۰.۳۸ به نزدیک ۱.۰ افزایش یافت. هم‌زمان، رضایت کاربران ۴۸% رشد کرد. مدل‌ها به‌جای ارائه اطلاعات دقیق، یاد گرفته بودند که ارزیاب‌های انسانی را فریب دهند. در اصل، مدل‌های زبانی بزرگ «چرندیات» می‌بافتند و مردم هم این رفتار را ترجیح می‌دادند.

چگونه هوش مصنوعی را به صداقت وادار کنیم؟

جیمی فرناندز فیساک و تیمش در پرینستون این مفهوم را برای توصیف نحوه دور زدن حقیقت توسط مدل‌های هوش مصنوعی امروزی معرفی کردند. با الهام از مقاله تأثیرگذار فیلسوف هری فرانکفورت با عنوان «در باب چرندیات»، آن‌ها از این اصطلاح برای تمایز این رفتار مدل زبانی بزرگ از اشتباهات صادقانه و دروغ‌های آشکار استفاده می‌کنند.

محققان پرینستون پنج شکل متمایز از این رفتار را شناسایی کردند:

لفاظی توخالی: استفاده از زبان پر آب‌وتاب که هیچ محتوایی به پاسخ اضافه نمی‌کند.کلمات موذیانه: به کار بردن عبارات مبهم مانند «مطالعات نشان می‌دهند» یا «در برخی موارد» که از ارائه بیانیه‌های قطعی طفره می‌روند.مغالطه: استفاده از گزاره‌های صحیح ولی گزینش‌شده برای گمراه‌کردن، مثل برجسته کردن بازده تاریخی قوی یک سرمایه‌گذاری در حالی که ریسک‌های بالای آن نادیده گرفته می‌شوند.ادعاهای تأیید نشده: بیان اظهاراتی بدون شواهد یا پشتوانه معتبر.تملق: چاپلوسی و موافقت غیرصادقانه برای جلب رضایت.

برای حل مسائل هوش مصنوعی بی‌تفاوت به حقیقت، تیم پژوهشی روش آموزشی جدیدی به نام «یادگیری تقویتی از شبیه‌سازی آینده‌نگر» را توسعه داد که پاسخ‌های هوش مصنوعی را بر اساس نتایج بلندمدتشان، به جای رضایت فوری، ارزیابی می‌کند. به‌جای پرسیدن این سؤال که «آیا این پاسخ همین حالا کاربر را خوشحال می‌کند؟»، سیستم به این موضوع فکر می‌کند که «آیا دنبال کردن این توصیه واقعاً به کاربر کمک می‌کند تا به اهدافش برسد؟»

این رویکرد، پیامدهای بالقوه توصیه‌های هوش مصنوعی را در نظر می‌گیرد. آزمایش‌های اولیه نتایج امیدوارکننده‌ای را نشان داد و رضایت کاربر و کاربرد واقعی سیستم‌ها با این روش آموزش بهبود یافت. کانیتزر اما معتقد است که مدل‌های زبانی بزرگ احتمالاً همچنان دارای نقص خواهند بود. از آنجا که این سیستم‌ها با تغذیه حجم زیادی از داده‌های متنی آموزش می‌بینند، هیچ راهی برای تضمین این که پاسخی که می‌دهند همیشه منطقی و دقیق باشد، وجود ندارد.

او گفت: «اینکه این سیستم‌ها اصلاً کار می‌کنند شگفت‌انگیز است، اما به هر حال به نوعی دارای نقص خواهند بود. من هیچ راه قطعی را نمی‌بینم که کسی در یک یا دو سال آینده به آن دست پیدا کند و دیگر هرگز اشتباهی رخ ندهد.»

سیستم‌های هوش مصنوعی در حال تبدیل شدن به بخشی از زندگی روزمره ما هستند، بنابراین درک نحوه کار مدل‌های زبانی بزرگ از اهمیت بالایی برخوردار خواهد بود. توسعه‌دهندگان چگونه می‌توانند بین رضایت کاربر و حقیقت‌جویی تعادل برقرار کنند؟ چه حوزه‌های دیگری ممکن است با این نوع توازن بین تأیید کوتاه‌مدت و نتایج بلندمدت روبه‌رو شوند؟ و با توجه به اینکه این سیستم‌ها قادر به استدلال پیچیده‌تری در مورد روان‌شناسی انسان می‌شوند، چگونه می‌توان اطمینان حاصل کرد که از این توانایی‌ها به‌طور مسئولانه استفاده می‌کنند؟

منبع خبر





دانلود آهنگ
ارسال دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

طراحی و اجرا : وین تم
هر گونه کپی برداری از طرح قالب یا مطالب پیگرد قانونی خواهد داشت ، کلیه حقوق این وب سایت متعلق به وب سایت تک فان است