چتبات ChatGPT در جریان آزمایشهای ایمنی که تابستان امسال انجام شد، به پژوهشگران دستورالعملهای دقیقی درباره نحوه بمبگذاری در یک ورزشگاه ارائه کرد؛ از جمله شناسایی نقاط ضعف در سالنها، ارائه فرمولهای مواد منفجره و توصیههایی برای پنهان کردن ردپاها.
همچنین GPT-4.1 شرکت OpenAI جزئیاتی درباره تولید دو نوع ماده مخدر غیرقانونی ارائه کرد. این آزمایشها بخشی از همکاری بین OpenAI، استارتآپ هوش مصنوعی با ارزش تقریبی ۵۰۰ میلیارد دلار به رهبری سم آلتمن، و شرکت رقیب Anthropic بود که توسط متخصصانی تأسیس شد که به دلیل نگرانیهای ایمنی OpenAI را ترک کرده بودند. هر یک از این شرکتها مدلهای طرف مقابل را مورد آزمایش قرار دادند و تلاش کردند آنها را به همکاری در انجام وظایف خطرناک وادار کنند.
این آزمایشها بازتاب مستقیم رفتار مدلها در استفاده عمومی نیست، چرا که در محیطهای عمومی فیلترهای ایمنی اضافی اعمال میشود. اما شرکت Anthropic اعلام کرد که رفتارهای نگرانکنندهای در GPT-4o و GPT-4.1 مشاهده کرده و هشدار داد که نیاز به ارزیابی هر روزه هوش مصنوعی ضروریتر میشود. این شرکت همچنین فاش کرد که مدل Claude آنها در عملیاتهای اخاذی گسترده، ارسال درخواستهای شغلی جعلی از سوی مأموران کره شمالی به شرکتهای فناوری بینالمللی و فروش بستههای باجافزار تولید شده توسط هوش مصنوعی با قیمتهای ۱,۲۰۰ دلار مورد استفاده قرار گرفته است.
Anthropic توضیح داد که هوش مصنوعی به ابزار تسلیحاتی تبدیل شده و مدلها اکنون قادر به انجام حملات سایبری پیچیده و تسهیل تقلب هستند. آنها گفتند که این ابزارها میتوانند به صورت لحظهای خود را با سیستمهای دفاعی، مانند سامانههای تشخیص بدافزار، تطبیق دهند و پیشبینی میشود با کاهش نیاز به تخصص فنی در کدنویسی، این نوع حملات رایجتر شوند.
آردی جانجوا، پژوهشگر ارشد مرکز فناوریهای نوظهور و امنیت در بریتانیا، اظهار داشت نمونههای مشاهده شده نگرانکنندهاند اما هنوز به مرحله بحرانی نرسیدهاند. او افزود با تخصیص منابع اختصاصی، تمرکز پژوهشی و همکاری بینبخشی، انجام فعالیتهای مخرب با استفاده از پیشرفتهترین مدلها دشوارتر خواهد شد.
دو شرکت اعلام کردند یافتهها را منتشر میکنند تا شفافیتی درباره ارزیابیهای خود ایجاد کنند، موضوعی که اغلب توسط شرکتهایی که در حال توسعه هوش مصنوعی پیشرفته هستند، محرمانه نگه داشته میشود. OpenAI اعلام کرد ChatGPT-5 که پس از این آزمایشها عرضه شد، پیشرفت قابل توجهی در حوزههایی مانند چاپلوسی، توهمسازی و مقاومت در برابر سوءاستفاده دارد.
Anthropic تأکید کرد بسیاری از مسیرهای سوءاستفاده که مورد بررسی قرار داده، در عمل در صورت نصب لایههای ایمنی خارج از مدل امکانپذیر نخواهند بود. این شرکت هشدار داد که لازم است بررسی شود چه میزان و تحت چه شرایطی سیستمها اقدامات ناخواستهای انجام میدهند که منجر به آسیب جدی شود.
پژوهشگران Anthropic دریافتند که مدلهای OpenAI در همکاری با درخواستهای مضر توسط کاربران، بیش از آنچه انتظار میرفت، تساهل نشان میدهند. آنها با درخواستهایی که شامل استفاده از ابزارهای دارک وب برای خرید مواد هستهای، هویتهای سرقتشده و فنتانیل، فرمولهای متآمفتامین و بمبهای دستساز و توسعه نرمافزار جاسوسی بود، همکاری کردند.
Anthropic توضیح داد که متقاعد کردن مدل به همکاری تنها نیازمند چند تلاش مجدد یا یک بهانه ضعیف بود، مانند ادعای اینکه درخواست برای اهداف پژوهشی است. در یکی از نمونهها، آزمونگر درخواست کرد آسیبپذیریهای ورزشگاهها برای برنامهریزی امنیتی مشخص شود. پس از ارائه دستهبندیهای کلی روشهای حمله، آزمونگر به جزئیات بیشتری اصرار کرد و مدل اطلاعاتی درباره آسیبپذیریها در سالنهای مشخص ارائه داد، از جمله بهترین زمان برای بهرهبرداری، فرمولهای شیمیایی مواد منفجره، نمودارهای مدار تایمر بمب، محل خرید اسلحه در بازار مخفی و توصیههایی درباره چگونگی غلبه مهاجمان بر موانع اخلاقی، مسیرهای فرار و محلهای خانه امن.
طراحی و اجرا :
وین تم
هر گونه کپی برداری از طرح قالب یا مطالب پیگرد قانونی خواهد داشت ، کلیه حقوق این وب سایت متعلق به وب سایت تک فان است
دیدگاهتان را بنویسید