تلاش موفق محققین در حوزه هوش مصنوعی: روندی پرشتاب تا پایان سال
به گزارش تجارت نیوز،
OpenAI با معرفی حالت صدای پیشرفته برای ChatGPT، یک گام بزرگ در فناوری هوش مصنوعی برداشته است. این ویژگی جدید که پاسخهای صوتی فوقواقعگرایانه ارائه میدهد، ابتدا برای گروهی منتخب از کاربران Plus ChatGPT در دسترس قرار گرفت. عرضه این ویژگی از 30 جولای 2024 آغاز شد و گسترش تدریجی آن به تمامی کاربران Plus تا پاییز 2024 پیشبینی میشود. این پیشرفت، نمایانگر یک گام بزرگ در بهبود تعاملات انسان و هوش مصنوعی است و مکالمات انسانیتر و احساسیتری را ممکن میسازد.
صدایی که غیرقانونی به نظر میرسید
حالت صدای پیشرفته اولین بار در می 2024 معرفی شد، جایی که تماشاگران را با پاسخهای سریع و صدای بسیار مشابه انسان، به ویژه شبیه به صدای اسکارلت جوهانسون در فیلم “Her” شگفتزده کرد. با وجود این هیجان اولیه، این تشابه منجر به جنجال شد، زمانی که جوهانسون بهطور علنی اظهار داشت که اجازه استفاده از صدایش را نداده و اقدام به اقدامات قانونی علیه OpenAI کرد. OpenAI استفاده از صدای او را انکار کرد اما نسخه نمایشی را حذف کرد. سپس شرکت، عرضه این ویژگی را برای رفع نگرانیهای ایمنی و اخلاقی به تأخیر انداخت.
در ادامه این گزارش به بررسی بیشتر این تکامل خواهیم پرداخت.
ویژگیهای حالت صدای پیشرفته
ترکیبی از چند مدل
حالت صدای پیشرفته ChatGPT که با GPT-4o تقویت شده، بهطور قابل توجهی با نسخه قبلی متفاوت است. حالت صدای قدیمی از سه مدل جداگانه برای تبدیل صدا به متن، پردازش متن و سپس تبدیل متن به صدا استفاده میکرد. GPT-4o که چندمدلی است، این وظایف را در یک مدل واحد ادغام میکند که منجر به کاهش تاخیر و مکالمات روانتر میشود. این ادغام، به هوش مصنوعی امکان میدهد تا ورودیهای کاربر را سریعتر و طبیعیتر پردازش و پاسخ دهد.
تکاملی که از آن میخوانید گامی بزرگ در جهت تعاملات بیشتر و حرفهای بین انسانها و هوش مصنوعی به شمار میرود. گامی بلند بهسوی زمانی که هر انسانی یک دستیار شخصی حرفهای داشته باشد و این دستیار حرفههای ساختاریافته بر هوش مصنوعی، از طریق مکالمه با شما به درخواست شما آگاه شود و به شما مانند یک انسان پاسخ دهد.
لحن شما هم تشخیص داده خواهد شد
یکی از ویژگیهای برجسته GPT-4o، توانایی تشخیص و پاسخ به لحنهای احساسی در صدای کاربر است. چه کاربر احساس غم، هیجان یا حتی آواز بخواند، هوش مصنوعی میتواند این نوانسها را تشخیص دهد و بهطور مناسب پاسخ دهد. این قابلیت، تعامل با ChatGPT را بیشتر جذبکننده و همدردانه میسازد و تجربه کاربری را بهبود میبخشد.
هوش مصنوعی به سرعت روزافزونی در حال پیشرفت و درنوردیدن مرزهای قبلی است. حالا با چنین امکانی ابزار هوش مصنوعی میتواند لحن شما را شناسایی کند و متناسب با همین لحن به شما پاسخ دهد. پاسخ هوش مصنوعی به درخواستهای شما باید دقیق و با نیازسنجی کاملی صورت بگیرد. چیزی که هنوز به کمال اتفاق نیافتاده اما میتوان مسیری را به همین مقصد برای این تکنولوژی ترسیم کرد.
عرضه محدود اولیه و تدابیر ایمنی
OpenAI این ویژگی را بهتدریج منتشر میکند تا استفاده از آن را از نزدیک نظارت کند. کاربران گروه آلفا در برنامه ChatGPT اعلانهایی دریافت خواهند کرد و سپس ایمیلی با دستورالعملهای استفاده از حالت صدای جدید دریافت خواهند کرد. این رویکرد محتاطانه به منظور جمعآوری بازخورد کاربران و اطمینان از ایمنی و قابل اعتماد بودن فناوری قبل از انتشار گستردهتر است.
برای جلوگیری از سواستفادههای احتمالی، مانند دیپفیکها و نقض حقوق مالکیت معنوی، OpenAI چندین تدبیر ایمنی را پیادهسازی کرده است. ChatGPT به چهار صدای از پیش تنظیم شده – Juniper، Breeze، Cove و Ember – که با همکاری بازیگران صوتی قراردادی توسعه یافتهاند، محدود خواهد شد. صدای Sky از نسخه نمایشی اولیه دیگر در دسترس نیست. علاوه بر این، هوش مصنوعی نمیتواند صدای دیگر افراد، از جمله شخصیتهای عمومی، را تقلید کند و خروجیهایی که سعی در انحراف از صداهای از پیش تنظیم شده دارند را مسدود خواهد کرد.
دیپفیک در کمین است
تلاشهای OpenAI برای جلوگیری از جنجالهای دیپفیک قابل توجه است، به ویژه با توجه به حوادث گذشته که فناوریهای تقلید صدا را شامل میشود. برای مثال، در ژانویه 2024، فناوری تقلید صدای ElevenLabs برای تقلید از صدای رئیس جمهور بایدن استفاده شد که رایدهندگان اولیه در نیوهمپشایر را فریب داد. برای جلوگیری از چنین سناریوهایی، OpenAI فیلترهای جدیدی برای مسدود کردن درخواستهایی که ممکن است موسیقی یا صدای دارای حقوق مالکیت تولید کنند معرفی کرده است. این حرکت به منظور جلوگیری از مشکلات قانونی مشابه با شرکتهای هوش مصنوعی دیگر مانند Suno و Udio است که توسط شرکتهای ضبط برای نقض حقوق مالکیت معنوی شکایت شدهاند.
چشمانداز آینده
معرفی حالت صدای پیشرفته توسط OpenAI یک نقطه عطف مهم در توسعه هوش مصنوعی است. در حالی که انتشار اولیه محدود و بهدقت نظارت میشود، پتانسیل برای تعاملات طبیعیتر و آگاهتر به احساسات انسانی با هوش مصنوعی بسیار زیاد است. شرکت قصد دارد گزارش تلاشهای ایمنی قابلیتهای صدای GPT-4o را در اوایل آگوست منتشر کند و اطلاعات بیشتری درباره توسعه و اجرای این فناوری ارائه دهد.
این یک پیشرفت چشمگیر به حساب میآید. پیشرفتی که باعث میشود تخیل ما از آینده نزدیک و نزدیکتر شود و به مرحله ظهور برسد.
اخبار حوزه استارتاپ و فناوری اطلاعات را در صفحه استارتاپ تجارتنیوز بخوانید.