هوش مصنوعی: وقتی تصاویر حرف میزنند، مایکروسافت آن را ممکن میکند
هوش مصنوعی و تکنولوژی VASA-۱ که توسط مایکروسافت ابداع شده است، قدرتی بینظیر برای تبدیل تصاویر ثابت به کلیپهای متحرک دارد. این فناوری توانایی تطبیق حرکات لب با صدا را دارد، به طوری که تا حدی که احساس میشود فرد واقعی صحبت میکند یا آواز خواند. علاوه بر این، VASA-۱ میتواند احساسات، ظرافتهای چهره و حرکات طبیعی را هم به تصویر بکشد و چهرههای ساختهشده را واقعیتر نشان دهد.
با این حال، از آنجایی که این تکنولوژی ممکن است برای جعل هویت انسان مورد سوء استفاده قرار بگیرد، مایکروسافت اعلام کرده است که این ابزار را برای عموم عرضه نخواهد کرد. از جمله خطرات احتمالی آن میتوان به کلاهبرداری از طریق تصاویر جعلی و همچنین از دست دادن حریم خصوصی اشاره کرد.
مطالعات نشان دادهاند که تصاویر ساختهشده با استفاده از هوش مصنوعی، به نظر واقعیتر از تصاویر انسانی میرسند که این ممکن است منجر به افزایش تقلبها و دسترسی ناخواسته به حریم خصوصی شود. از آنجایی که این تکنولوژی به سرعت در حال پیشرفت است، نگرانیهایی در مورد مسائل امنیتی و اخلاقی آن وجود دارد که نیاز به رسیدگی دارد.
به لطف ابزار هوش مصنوعی جدید مایکروسافت، مرز بین آنچه واقعی هست و نیست، روز به روز باریکتر میشود. این فناوری که VASA-۱ نام دارد، تصویری ثابت از چهره یک فرد را به یک کلیپ متحرک از صحبت کردن یا آواز خواندن او تبدیل میکند.
به گزارش روزیاتو، این غول فناوری ادعا میکند که حرکات لب «بهطرز بینظیری» با صدا هماهنگ میشوند تا به نظر برسد که سوژه زنده است. در واقع عملکرد VASA-۱ فراتر از تطبیق حرکات لب با صدا است و میتواند طیف گستردهای از احساسات، ظرافتهای چهره و حرکات طبیعی سر را نیز به تصویر بکشد و چهرههای ساختهشده را واقعیتر نشان دهد.
در یک نمونه، شاهکار قرن شانزدهمی لئوناردو داوینچی، «مونالیزا»، با لهجه آمریکایی شروع به رپ کردن میکند.
علاوهبراین، VASA-۱ روی ویدیوی تولیدشده کنترل دارد؛ به این معنا که کاربر میتواند جهت نگاهکردن شخصیت، مقیاسهای مختلف فاصله سوژه از تصویر و حتی حالت احساسی آنها را مشخص کند.
با این حال، مایکروسافت اذعان میکند که از آنجایی که این ابزار ممکن است برای جعل هویت انسان مورد سوء استفاده قرار گیرد، آن را برای عموم منتشر نخواهد کرد.
یکی دیگر از خطرات احتمالی کلاهبرداری است، زیرا کاربران آنلاین ممکن است بهوسیله یک پیام جعلی از تصویر شخصی که به او اعتماد دارند گول بخورند.
کارشناسان مایکروسافت با پیشبینی نگرانیهایی که ممکن است مردم داشته باشند، گفتند: «VASA-۱ به منظور ایجاد محتوایی که برای گمراه کردن یا فریب استفاده میشود طراحی نشده است. با این حال، مانند سایر تکنیکهای مشابه تولید محتوا، همچنان میتوان از آن برای جعل هویت انسانها سوء استفاده کرد».
مایکروسافت اذعان میکند که تکنیکهای موجود هنوز با «اصالت چهرههای طبیعی در حال حرف زدن» فاصله دارند، اما قابلیتهای هوش مصنوعی به سرعت در حال رشد است.
به گفته محققان دانشگاه ملی استرالیا، چهرههای جعلی ساخته شده توسط هوش مصنوعی واقعیتر از چهره انسان به نظر میرسند. این متخصصان هشدار میدهند که تصاویر هوش مصنوعی از افراد، دارای واقعگرایی افراطی یا هایپررئالیسم هستند؛ به این معنی که چهرهها تناسب بیشتری دارند و مردم این موضوع را به عنوان نشانهای از واقعیبودن تلقی میکنند.
مطالعه دیگری توسط کارشناسان دانشگاه لنکستر نشان داد که چهرههای جعلی ساختهشده توسط هوش مصنوعی قابل اعتمادتر به نظر میرسند، که این موضوع پیامدهایی برای حفظ حریم خصوصی آنلاین دارد.
در همین حال، OpenAI، خالق ربات معروف ChatGPT، ابزار ترسناک تبدیل متن به ویدیو سورا (Sora) خود را در ماه فوریه معرفی کرد که میتواند کلیپهای ویدیویی هوش مصنوعی فوقالعاده واقعی را تنها بر اساس دستورالعملهای متنی کوتاه و توصیفی بسازد.
کارشناسان هشدار دادند که این موضوع میتواند کل صنایعی مانند تولید فیلم را از بین ببرد و منجر به افزایش ویدیوهای دیپ فیک بهویژه در آستانه رویدادهای مهم سیاسی مانند انتخابات ریاست جمهوری شود.