جدیدترین مدل هوش مصنوعی اپل به جای تشخیص آنچه صرفاً گفته میشود، تمرکز خود را روی چگونگی ادای گفتار معطوف کرده که این موضوع از نظر انسانی و فنی بسیار حائز اهمیت است. در تازهترین پژوهشی که اپل منتشر کرده، چارچوبی برای تحلیل گفتار معرفی شده که بر پایه آن، گفتار بر اساس ویژگیهایی قابل تفسیر مانند وضوح، یکنواختی، زیر و بمی صدا و دیگر ابعاد بررسی میشود. این خصوصیات دقیقاً همانهایی هستند که آسیبشناسان گفتار و زبان در هنگام ارزیابی گفتار افراد مبتلا به اختلالات عصبی یا بیماریهای خاص مد نظر قرار میدهند. اکنون اپل در حال توسعه مدلهایی است که قادر به شناسایی این ویژگیها در گفتار نیز باشند.
آموزش شنیدن و گوش دادن به مدلهای هوش مصنوعی امروزی عمدتاً بر پایه صدای افراد سالم و با الگوی معمول آموزش داده شدهاند، که این موضوع باعث میشود در مواجهه با گفتاری که با حالت طبیعی متفاوت است، عملکرد مطلوبی نداشته باشند. این یک خلأ اساسی در حوزه دسترسپذیری محسوب میشود. پژوهشگران اپل مدلهایی را طراحی کردهاند که به عنوان ابزارهای تحلیلی روی سامانههای گفتار موجود قرار میگیرند و با بهرهگیری از یک مجموعه داده شامل گفتارهای دارای ویژگیهای غیرمعمول از افراد مبتلا به پارکینسون، ALS و فلج مغزی آموزش دیدهاند. نکته مهم آنجاست که این مدلها برای پیادهسازی متن استفاده نشدهاند، بلکه برای سنجش نحوه ادای صدا و تحلیل آن بر اساس هفت بعد کلیدی طراحی شدهاند که عبارتند از:
وضوح گفتار: درجه سهولت در درک محتوای گفتارصامتهای مبهم: میزان دقت در تلفظ صامتها، نظیر صامتهای مبهم یا کشدارصدای خشن: کیفیت صوتی زمخت، فشرده یا گرفتهطبیعی بودن گفتار: میزان شباهت گفتار به الگوی گفتار عادی و روانبلندی یکنواخت صدا: عدم وجود تنوع در شدت صدایکنواختی زیر و بمی: نبود تغییرات در زیر و بمی که به گفتاری تخت یا رباتگونه میانجامدصدای همراه با تنفس: کیفیت صدای آمیخته با هوا که غالباً از بسته نشدن کامل چینهای صوتی ناشی میشود
در مجموع، این مدلها بهگونهای آموزش دیدهاند که بهجای صرفاً شنیدن کلمات، مانند یک متخصص بالینی به کیفیت گفتار توجه داشته باشند. در قالبی فنیتر، میتوان گفت اپل با استفاده از پنج مدل شامل CLAP، HuBERT، HuBERT ASR، Raw-Net3 و SpICE ویژگیهای صوتی را استخراج کرده و سپس مدلهای تشخیصی سبک را برای پیشبینی ابعاد کیفیت صوت بر پایه آن ویژگیها آموزش داده است.
در نتیجه، این مدلها در بیشتر ابعاد عملکرد قابل قبولی از خود نشان دادند، اگرچه دقت آنها با توجه به ویژگی مورد ارزیابی و وظیفه محولشده متفاوت بود. یکی از جنبههای برجسته این تحقیق آن است که نتایج خروجی مدل بهصورت قابل تفسیر ارائه میشود، که در هوش مصنوعی هنوز پدیدهای نادر بهشمار میرود. بهجای ارائه امتیاز اطمینان مبهم یا قضاوت مبتنی بر جعبه سیاه، این سامانه میتواند به ویژگیهای صوتی مشخصی اشاره کند که منجر به طبقهبندی خاصی شدهاند. این توانایی میتواند تأثیر قابلتوجهی بر ارزیابی بالینی و روند تشخیص بیماریها داشته باشد.
جالب آنکه اپل استفاده از این فناوری را تنها به گفتار بالینی محدود نکرده است. تیم تحقیقاتی، مدلهای خود را روی مجموعهدادهای از گفتارهای احساسی با عنوان RAVDESS نیز آزمایش کردهاند. علیرغم آنکه این مدلها آموزش خاصی برای تشخیص هیجانات صوتی ندیدهاند، موفق به ارائه تحلیلهایی منطقی و شهودی شدند. برای نمونه، صدای عصبانی با یکنواختی کمتر در بلندی صدا همراه بود، صدای آرام کمتر خشن ارزیابی شد و صدای غمگین بیشتر یکنواخت به نظر میرسید. این فناوری میتواند زمینهساز توسعه نسخهای هوشمندتر و همدلتر از Siri باشد که نه فقط به کلمات، بلکه به حالت احساسی و ذهنی گوینده نیز واکنش نشان دهد و لحن خود را متناسب با آن تنظیم کند.
طراحی و اجرا :
وین تم
هر گونه کپی برداری از طرح قالب یا مطالب پیگرد قانونی خواهد داشت ، کلیه حقوق این وب سایت متعلق به وب سایت تک فان است
دیدگاهتان را بنویسید