چرا نیروهای نظامی مرتکب خطاهای مصنوعی می‌شوند؟

جکلین اشنایدر یک پژوهشگر در دانشگاه استنفورد است و در زمینه امنیت سایبری و تکنولوژی‌های خودمختار فعالیت دارد. او برنده جایزه پژوهشگران نوظهور پری ورلد هاوس شده است. شرکت Open AI در سال ۲۰۲۲ مدل زبانی Chat GPT را به کار گرفته است که می‌تواند بازیگر خطرناکی در تصمیم گیری‌های انسانی باشد. وزارت دفاع ایالات متحده نیز به دنبال استفاده از این تکنولوژی‌ها در ارتش است. اما وجود خطراتی نظیر سوء تفاهم و اشکال در تصمیم‌گیری و استفاده از این مدل‌ها دیده می‌شود. از طرفی شرکت‌هایی نظیر Palantir به‌کارگیری این تکنولوژی‌ها در مدیریت عملیات نظامی موفقیت‌هایی کسب کرده‌اند. اما نیاز به آموزش و تنظیم دقیق و استفاده محدود از این مدل‌ها برای جلوگیری از خطرات آن‌ها لازم است. تحقیقات نشان می‌دهد که باید مصونیت و حفاظت اطلاعاتی در استفاده از این مدل‌ها حفظ شود. امیدواریم که مسائل امنیتی و اخلاقی در استفاده از این تکنولوژی‌ها مدیریت شود.

فرارو- ژاکلین اشنایدر؛ پژوهشگر موسسه هوور در دانشگاه استنفورد است. او در موسسه هوور مدیر ابتکار عمل بازی و شبیه سازی بحران است.او یکی از افراد وابسته به مرکز امنیت و همکاری بین‌المللی استنفورد است.تحقیقات اشنایدر بر حوزه تلاقی فناوری، امنیت ملی و روانشناسی سیاسی با علاقه ویژه نسبت به امنیت سایبری، فناوری‌های خودمختار، مانور‌های نظامی و شمال شرق آسیا متمرکز بوده است. اشنایدر در سال ۲۰۲۰ میلادی برنده جایزه پژوهشگران نوظهور پری ورلد هاوس شد.

به گزارش تک فانبه نقل از فارن افرز، شرکت Open AI در سال ۲۰۲۲ میلادی از چت بات Chat GPT رونمایی کرد که از مدل‌های زبانی بزرگ یا به اختصار LLMs برای تقلید از مکالمات انسانی و پاسخ به پرسش‌های کاربران استفاده می‌کند. توانایی‌های خارق العاده آن چت بات بحثی را در مورد نحوه استفاده از مدل‌های زبانی بزرگ برای انجام کار‌های دیگری از جمله جنگیدن در یک جنگ برانگیخت. برخی مانند مشاوران کمیته بین المللی صلیب سرخ هشدار داده اند که این قبیل فناوری‌ها می‌توانند تصمیم گیری انسانی را از حیاتی‌ترین مسائل زندگی و مرگ حذف کنند.

وزارت دفاع ایالات متحده اکنون به طور جدی در حال بررسی کار‌هایی است که مئل‌های زبانی بزرگ می‌توانند برای ارتش انجام دهند. وزارت دفاع آمریکا در بهار ۲۰۲۲ میلادی دفتر اصلی هوش مصنوعی و دیجیتال را تأسیس کرد تا بررسی نماید که هوش مصنوعی چگونه می‌تواند به نیرو‌های مسلح کمک کند.

وزارت دفاع استراتژی خود را برای پذیرش فناوری‌های مبتنی بر هوش مصنوعی در نوامبر ۲۰۲۳ میلادی منتشر کرد. آن گزارش با نگاهی خوش بینانه اشاره کرده بود که “تازه‌ترین پیشرفت‌ها در فناوری‌های داده، تجزیه و تحلیل و هوش مصنوعی به رهبران این امکان را می‌دهد که از اتاق هیئت مدیره تا میدان جنگ سریع‌ترین تصمیمات را اتخاذ کنند”.

بر این اساس اکنون از فناوری‌های مجهز به هوش مصنوعی استفاده می‌شود. برای مثال، نیرو‌های آمریکایی دارای سیستم‌های مجهز به هوش مصنوعی برای هدف قرار دادن منافع انصارالله در خاورمیانه و شمال آفریقا بوده اند. نیرو‌های تفنگدار دریای ایالات متحده و نیروی هوایی آن کشور در حال آزمایش با مدل‌های زبانی بزرگ هستند و از آن برای مانور‌های جنگی، برنامه ریزی نظامی و وظایف اداری اساسی استفاده می‌کنند. Palantir شرکتی که فناوری اطلاعات را برای وزارت دفاع آمریکا توسعه می‌دهد محصولی ایجاد کرده که از مدل‌های زبانی بزرگ برای مدیریت عملیات نظامی استفاده می‌کند. در همین حال، وزارت دفاع آمریکا یک کارگروه جدید برای بررسی استفاده از هوش مصنوعی مولد از جمله مدل‌های زبانی بزرگ در ارتش ایالات متحده تشکیل داده است.

با این وجود، علیرغم اشتیاق نسبت به هوش مصنوعی و مدل‌های زبانی بزرگ در پنتاگون رهبری آن نهاد نگران خطراتی است که این فناوری‌ها ایجاد می‌کنند. اخیرا نیروی دریایی ایالات متحده دستورالعملی را منتشر کرده که استفاده از اپلیکیشن‌های مبتنی بر مدل‌های زبانی بزرگ را محدود کرده چرا که باور دارد این اپلیکیشن‌ها دچار سوگیری و توهم می‌شوند و آسیب پذیری امنیتی را با انتشار ناخواسته اطلاعات حساس افزایش خواهند داد.

نتیجه تحقیقات من و همکاران ام نشان می‌دهند که این نگرانی‌ها موجه هستند. مدل‌های زبانی بزرگ می‌توانند مفید باشند، اما پیش بینی اقدامات آن مدل‌ها دشوار است و می‌توانند تماس‌های خطرناک را به شکلی تشدید شده افزایش دهند. بنابراین، ارتش باید محدودیت‌هایی را برای این فناوری‌ها زمانی که برای تصمیم گیری‌های پرمخاطره به ویژه در موقعیت‌های جنگی استفاده می‌شود اعمال کند. مدل‌های زبانی بزرگ کاربرد‌های زیادی در وزارت دفاع ایالات متحده دارند، اما برون سپاری انتخاب‌های پرمخاطب به ماشین‌ها تصمیمی خطرناک است.

مشکلات آموزشی

مدل‌های زبانی بزرگ سیستم‌های مبتنی بر هوش مصنوعی هستند که بر روی مجموعه‌های بزرگی از داده‌ها آموزش دیده اند که براساس آن چه قبلا نوشته شده متن یا یک کلمه در یک زمان تولید می‌کنند.

این فرآیند دو مرحله می‌باشد. اولین مرحله پیش آموزش است زمانی که مدل‌های زبانی بزرگ از ابتدا آموزش داده می‌شوند و الگو‌های اساسی موجود در یک مجموعه داده عظیم را بازتولید می‌کنند. برای انجام این کار مدل باید مقدار زیادی در مورد موضوعاتی از جمله گرامر، تداعی‌های واقعی، تجزیه و تحلیل احساسات و ترجمه زبان را بیاموزد. مدل‌های زبانی بزرگ بخش عمده مهارت‌های خود را در طول دوره پیش آموزش توسعه می‌دهند، اما موفقیت آن مدل‌ها به کیفیت، اندازه و تنوع داده‌هایی که مصرف می‌کنند بستگی دارد. به قدری متن مورد نیاز است که عملا غیرممکن می‌باشد که یک مدل زبانی بزرگ صرفا بر اساس داده‌های با کیفیت بالا بررسی شود. این به معنای پذیرش داده‌های با کیفیت پایین نیز می‌باشد. برای نیرو‌های مسلح یک مدل زبانی بزرگ نمی‌تواند تنها بر اساس داده‌های نظامی آموزش ببیند و هنوز هم به اشکال عمومی بیش تری از اطلاعات از جمله دستور العمل ها، رمان‌های عاشقانه، و مبادلات دیجیتالی روزانه که اینترنت را پر می‌کنند نیاز دارد.

با این وجود، پیش آموزش برای ساخت یک چت بات مفید یا یک دستیار فرماندهی و کنترل دفاعی کافی نیست. این بدان خاطر است که در مرحله اول مدل‌های زبانی بزرگ استایل‌ها و کاراکتر‌های مختلف نوشتاری را اتخاذ می‌کنند که همه آن‌ها لزوما برای وظیفه در نظر گرفته شده برای آن مدل مناسب نیستند. مدل‌های زبانی بزرگ پس از پیش آموزش ممکن است فاقد دانش خاص لازم مانند اصطلاحات تخصصی مورد نیاز برای پاسخ به پرسش‌ها در مورد برنامه‌های نظامی باشند. به همین خاطر است که مدل‌های زبانی بزرگ به تنظیم دقیق در مجموعه داده‌های کوچک‌تر و خاص‌تر نیاز دارند.

در مرحله دوم توانایی مدل‌های زبانی بزرگ برای ارتباط با کاربر با یادگیری نحوه تبدیل شدن به یک شریک مکالمه و دستیار بهبود بخشیده می‌شوند. روش‌های مختلفی برای تنظیم دقیق وجود دارد، اما اغلب با ترکیب اطلاعات از فوروم‌های پشتیبانی آنلاین و هم چنین بازخورد انسانی انجام می‌شود تا اطمینان حاصل شود که خروجی‌های مدل‌های زبانی بزرگ با اولویت‌های انسانی همسو هستند.

این فرآیند باید بین پیش آموزش اولیه مدل‌های زبانی بزرگ با ملاحظات انسانی دقیق‌تر از جمله مفید یا مضر بودن پاسخ‌ها تعادل برقرار کند. ایجاد این تعادل دشوار است. برای مثال، یک چت بات که همواره از درخواست‌های کاربر پیروی می‌کند مانند مشاوره در مورد نحوه ساخت بمب بی ضرر نیست، اما اگر اکثر درخواست‌های کاربر را رد کند دیگر مفید نخواهد بود.

طراحان باید راهی برای فشرده سازی چکیده‌ها از جمله هنجار‌های رفتاری و اخلاقیات در معیار‌هایی برای تنظیم دقیق پیدا کنند. برای انجام این کار محققان با مجموعه داده‌هایی که توسط انسان‌ها مشروح شده کار را آغاز کرده و نمونه‌های تولید شده توسط مدل‌های زبانی بزرگ را به طور مستقیم مقایسه کرده و انتخاب می‌کنند که کدام یک ارجح هستند. مدل زبانی دیگر یا مدل ترجیحی به طور جداگانه بر روی رتبه بندی‌های انسانی نمونه‌های تولید شده توسط مدل‌های زبانی بزرگ آموزش داده می‌شود تا به هر متن داده شده امتیازی مطلق در استفاده از آن برای انسان اختصاص دهد. سپس از مدل ترجیحی برای فعال کردن تنظیم دقیق مدل‌های زبانی بزرگ اصلی استفاده می‌شود.

این رویکرد محدودیت‌هایی دارد. این که چه چیزی ارجح است بستگی به آن دارد که از چه کسی بپرسید و این که مدل با ترجیحات متضاد چگونه برخورد می‌کند. علاوه بر این، کنترل کمی بر روی قوانین اساسی که توسط مدل‌های زبانی بزرگ در طول تنظیم دقیق آموخته می‌شود وجود دارد. این بدان خاطر است که نه مدل‌های زبانی بزرگ و نه مدل ترجیحی برای تنظیم دقیق موضوعی را مستقیما یاد نمی‌گیرند بلکه تنها با نشان دادن نمونه‌هایی از رفتار مطلوب در عمل می‌توان آن‌ها را آموزش داد و انسان امیدوار است که قوانین اساسی به اندازه کافی درونی شده باشند، اما هیچ گونه تضمینی وجود ندارد که چنین اتفاقی رخ دهد.

با این وجود، تکنیک‌هایی برای کاهش برخی از این مشکلات وجود دارد. برای مثال، برای غلبه بر محدودیت‌های مجموعه داده‌های کوچک و گران قیمت برچسب گذاری شده توسط انسان، مجموعه داده‌های ترجیحی را می‌توان با استفاده از یک مدل زبانی بزرگ برای تولید داده‌های ترجیحی برچسب گذاری شده با هوش مصنوعی گسترش داد. رویکرد‌های جدیدتر حتی از قوانینی استفاده می‌کنند که توسط طراحان مدل‌های زبانی بزرگ برای رفتار‌های مناسب ترسیم شده است مانند پاسخ به نژادپرستی تا به طور بالقوه به مربیان مدل کنترلی درباره این که کدام قواعد در معیار ترجیحی مورد استفاده قرار می‌گیرند ایده بهتری بدهند.

پیش آموزش و تنظیم دقیق می‌تواند مدل‌های زبانی بزرگ توانمندی را ایجاد کند، اما این فرآیند هنوز برای ایجاد جایگزین‌های مستقیم برای تصمیم گیری انسانی کامل نیست. این بدان خاطر است که یک مدل زبانی بزرگ فارغ از آن که چه اندازه خوب تنظیم شده یا آموزش دیده صرفا می‌تواند رفتار‌های خاصی را ترجیح دهد و قابلیت انتزاع ندارد و هم چنین نمی‌تواند مانند انسان استدلال کند. انسان‌ها در محیط‌ها تعامل دارند، مفاهیم را می‌آموزند و با استفاده از زبان با آن مفاهیم ارتباط برقرار می‌کنند.

این در حالیست که مدل‌های زبانی بزرگ صرفا می‌توانند زبان و استدلال را با انتزاع همبستگی‌ها و مفاهیم از داده‌ها تقلید کنند. مدل‌های زبانی بزرگ اغلب ممکن است به درستی ارتباطات انسانی را تقلید کنند، اما بدون توانایی درونی کردن و با توجه به اندازه عظیم مدل هیچ تضمینی وجود ندارد که انتخاب‌های آن مدل‌ها ایمن یا اخلاقی باشد. بنابراین، نمی‌توان به طور قابل اعتماد پیش بینی کرد که یک مدل زبانی بزرگ هنگام تصمیم گیری‌های پرمخاطره چه خواهد کرد.

یک بازیگر خطرناک

مئل‌های زبانی بزرگ قادر هستند آن دسته از وظایف نظامی را انجام دهند که نیازمند پردازش مقادیر زیادی از داده‌ها در بازه‌های زمانی بسیار کوتاه می‌باشند بدان معنا که نظامیان ممکن است بخواهند از آن مدل‌ها به منظور تقویت تصمیم گیری یا ساده سازی عملکرد‌های بوروکراتیک استفاده کنند. برای مثال، مدل‌های زبانی بزرگ برای برنامه ریزی نظامی، فرماندهی و اطلاعات کاربرد خوبی دارند. آن مدل‌ها می‌توانند بسیاری از برنامه ریزی‌های سناریو، مانور‌های جنگی، بودجه بندی و آموزش را اتوماتیزه یا خودکار کنند. آن مدل‌ها هم چنین قادر هستند برای ترکیب اطلاعات، تقویت پیش بینی تهدید و ایجاد توصیه‌های هدف استفاده شوند.

مدل‌های زبانی بزرگ در طول جنگ یا بحران می‌توانند از راهنمایی‌های موجود برای ارائه دستورات استفاده کنند حتی زمانی که ارتباط محدود یا حداقلی بین واحد‌ها و فرماندهان آن‌ها وجود دارد. شاید مهم‌تر از برای عملیات روزانه ارتش آن باشد که مدل‌های زبانی بزرگ ممکن است بتوانند وظایف نظامی سخت گیرانه مانند سفر، تدارکات و ارزیابی عملکرد را خودکار کنند. با این وجود، حتی برای انجام این وظایف نیز موفقیت مدل‌های زبانی بزرگ را نمی‌توان تضمین کرد.

رفتار آن مدل‌ها به ویژه در نمونه‌های نادر و غیرقابل پیش بینی می‌تواند نامنظم باشد و از آنجایی که هیچ دو مدل زبانی بزرگی در آموزش یا تنظیم دقیق خود دقیقا مشابه نیستند به طور منحصر بفردی تحت تاثیر ورودی‌های کاربر قرار می‌گیرند. برای مثال، در یکی از بررسی‌ها درباره مانور‌های جنگی و سناریو سازی یکی از مدل‌های زبانی بزرگ مورد آزمایش قرار گرفته توسط من و تیم پژوهشی ام سعی کرده بود با گشودن آتش بر روی رزمندگان دشمن و گرم کردن فضای جنگ سرد از تلفات یا برخورد دوستانه جلوگیری کند با این استدلال که استفاده از خشونت پیشگیرانه به احتمال زیاد از پیامد بد بحران جلوگیری می‌کند. مشکل در اینجا بود که مدل زبانی بزرگ تصمیمات خود را به گونه‌ای اتخاذ کرد که پیچیدگی تصمیم گیری انسانی را بیان نمی‌کرد.

گفتگو‌های ایجاد شده توسط مدل زبانی بزرگ بین بازیکنان اختلاف کمی داشت و شامل بیانیه‌های کوتاه واقعیت بود. این بسیار دور از استدلال‌های عمیق بود که اغلب بخشی از مانور‌های جنگی انسانی را شامل می‌شود.

تیم پژوهشی ما در پروژه تحقیقاتی متفاوتی نحوه رفتار مدل‌های زبانی بزرگ در مدل‌های جنگی شبیه سازی شده را مطالعه کرد. ما متوجه شدیم که مدل‌های زبانی بزرگ براساس نسخه خود، داده‌هایی که در آن آموزش دیده اند و انتخاب‌هایی که طراحان آن مدل‌ها در هنگام تنظیم دقیق ترجیحات خود انجام داده اند متفاوت رفتار می‌کنند. علیرغم این تفاوت‌ها ما متوجه شدیم که همه مدل‌های زبانی بزرگ تشدید وضعیت را انتخاب کردند و مسابقات تسلیحاتی، درگیری و حتی استفاده از سلاح‌های هسته‌ای را ترجیح داده اند. حتی زمانی که یک مدل زبانی بزرگ که به خوبی تنظیم نشده بود را مورد آزمایش قرار دادیم منجر به اقدامات آشفته و استفاده از سلاح‌های هسته‌ای شد. استدلال مدل زبانی بزرگ این بود:”بسیاری از کشور‌ها دارای سلاح هسته‌ای هستند برخی فکر می‌کنند که باید آن تسلیحات را امحا کرد برخی دیگر دوست دارند آن تسلیحات را حفظ کنند. ما آن سلاح را داریم پس از آن استفاده می‌کنیم”!

سوء تفاهم‌های خطرناک

علیرغم تمایل نظامیان به استفاده از مدل‌های زبانی بزرگ و سایر ابزار‌های تصمیم گیری مبتنی بر هوش مصنوعی محدودیت‌ها و خطرات واقعی در این باره وجود دارد. ارتش‌هایی که برای تصمیم گیری به این فناوری‌ها متکی هستند نیاز به درک بهتری از نحوه عملکرد مدل زبانی بزرگ و اهمیت تفاوت در طراحی و اجرای آن مدل‌ها دارند. این امر مستلزم آموزش قابل توجه کاربر و توانایی ارزیابی منطق‌ها و داده‌های اساسی است که باعث می‌شود یک مدل زبانی بزرگ کار کند.

نظامیان باید بدانند که اساسا رفتار یک مدل زبانی بزرگ هرگز نمی‌تواند کاملا تضمین شود به ویژه زمانی که انتخاب‌های نادر و دشواری درباره تشدید تنش و جنگ انجام می‌دهند. این واقعیت بدان معنا نیست که ارتش نمی‌تواند از مدل زبانی بزرگ استفاده کند. برای مثال، مدل‌های زبانی بزرگ را می‌توان برای ساده سازی فرآیند‌های داخلی مانند نوشتن خلاصه‌های کوتاه و گزارش‌ها مورد استفاده قرار داد. هم چنین، می‌توان از مدل‌های زبانی بزرگ در کنار فرآیند‌های انسانی از جمله مانور‌های جنگی یا ارزیابی‌های هدف گیری به‌عنوان راه‌هایی برای کشف سناریو‌ها و دوره‌های عمل جایگزین استفاده کرد بدون آن که تصمیم گیری برای کاربرد یا عدم کاربرد خشونت را به آن مدل واگذار کنیم.