تک فان

تک فان

مجله خبری تفریحی: دنیای سرگرمی و تفریح
امروز: شنبه , ۱۹ مهر , ۱۴۰۴
X
سامسونگ ابزار جدید TRUEBench را برای سنجش واقعی عملکرد هوش مصنوعی معرفی کرد

سامسونگ ابزار جدید TRUEBench را برای سنجش واقعی عملکرد هوش مصنوعی معرفی کرد

سامسونگ با معرفی معیار جدید TRUEBench قصد دارد ارزیابی دقیق‌تر و نزدیک‌تر به واقعیت از بهره‌وری هوش مصنوعی در وظایف کاری ارائه دهد.

قیمت روز گوشی های بازار ایرانقیمت روز گوشی های بازار ایران

به گزارش تکراتو و به نقل از androidheadlines، مرکز تحقیقاتی سامسونگ ابزاری تازه به نام TRUEBench معرفی کرده که هدف آن رفع کاستی‌های ابزارهای فعلی ارزیابی هوش مصنوعی است.

این معیار تازه امکان سنجشی واقعی‌تر از بهره‌وری هوش مصنوعی در وظایف کاری و سازمانی را فراهم می‌کند و بر پایه همکاری انسان و هوش مصنوعی طراحی شده است. TRUEBench بیش از ۲۴۰۰ مجموعه آزمایشی در ۱۲ زبان مختلف دارد تا دقت و جامعیت نتایج تضمین شود.

سامسونگ برخلاف شرکت‌هایی مانند Perplexity یا OpenAI تمرکز کامل روی هوش مصنوعی ندارد. با این حال استراتژی کوتاه‌مدت و بلندمدت این شرکت ادغام هوش مصنوعی در بیشتر محصولات خود در تمامی بخش‌هاست.

مجموعه قابلیت‌های Galaxy AI در گوشی‌ها و تبلت‌های این شرکت نمونه‌ای از این رویکرد است. در همین مسیر، مرکز تحقیقاتی سامسونگ ابزار اختصاصی TRUEBench را برای ارزیابی بهره‌وری هوش مصنوعی توسعه داده است.

این معیار جدید با نام کامل Trustworthy Real-world Usage Evaluation Benchmark یا TRUEBench طراحی شده تا محدودیت‌های موجود در معیارهای رایج را برطرف کند.

سامسونگ می‌گوید ابزارهای فعلی بیش از حد روی زبان انگلیسی متمرکز هستند و معمولا ساختار ساده پرسش و پاسخ یک‌مرحله‌ای دارند. این موضوع باعث می‌شود توانایی واقعی هوش مصنوعی در محیط‌های کاری دقیق بازتاب پیدا نکند.

TRUEBench با هدف ارائه ارزیابی جامع‌تر و واقعی‌تر از عملکرد مدل‌های زبانی بزرگ در محیط‌های حرفه‌ای ساخته شده است. این معیار توانایی هوش مصنوعی را در ده وظیفه پرکاربرد سازمانی می‌سنجد؛ از جمله تولید محتوا، تحلیل داده، خلاصه‌سازی و ترجمه.

این مجموعه شامل ۲۴۸۵ آزمون در ده دسته اصلی و ۴۶ زیردسته است که سناریوهای متنوعی را در قالب گفتگو به ۱۲ زبان پوشش می‌دهد.

مجموعه آزمون‌ها از متونی به کوتاهی ۸ کاراکتر تا متونی بیش از ۲۰ هزار کاراکتر را شامل می‌شود تا طیف وسیعی از وظایف، از درخواست‌های ساده تا خلاصه‌سازی اسناد طولانی، سنجیده شود.

برای اطمینان از دقت و صحت نتایج، TRUEBench از یک سیستم ارزیابی ترکیبی بهره می‌گیرد که هم انسان و هم هوش مصنوعی در آن نقش دارند. در ابتدا ارزیاب‌های انسانی معیارهای اولیه را مشخص می‌کنند.

سپس یک هوش مصنوعی این معیارها را بررسی می‌کند تا خطاها یا محدودیت‌های غیرضروری شناسایی شود. در ادامه، انسان‌ها دوباره بر اساس بازخورد هوش مصنوعی معیارها را اصلاح می‌کنند و این چرخه تکرار می‌شود تا استانداردی هرچه دقیق‌تر ایجاد گردد.

این روش چندلایه به کاهش سوگیری‌های ذهنی کمک می‌کند. برای قبولی در این آزمون، یک مدل هوش مصنوعی باید همه شرایط تعیین‌شده را برآورده کند و همین باعث می‌شود امتیازدهی جزئی‌تر و دقیق‌تر انجام گیرد.

سامسونگ داده‌های نمونه و جدول‌های رتبه‌بندی TRUEBench را روی پلتفرم متن‌باز Hugging Face منتشر کرده است. این پلتفرم به توسعه‌دهندگان و پژوهشگران اجازه می‌دهد عملکرد و بهره‌وری تا پنج مدل هوش مصنوعی مختلف را به‌طور همزمان مقایسه کنند.

همچنین این شرکت قصد دارد داده‌هایی درباره میانگین طول پاسخ مدل‌ها منتشر کند تا مقایسه‌ای سریع از نظر کارایی و بهره‌وری در دسترس باشد.

به گفته سامسونگ، هدف از توسعه TRUEBench ایجاد استانداردهای تازه برای ارزیابی بهره‌وری و تقویت جایگاه فناوری این شرکت است. در اصل، این معیار وعده ارائه شاخص‌هایی واقعی‌تر و قابل اعتمادتر در حوزه هوش مصنوعی را می‌دهد.

منبع





دانلود آهنگ
ارسال دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

طراحی و اجرا : وین تم
هر گونه کپی برداری از طرح قالب یا مطالب پیگرد قانونی خواهد داشت ، کلیه حقوق این وب سایت متعلق به وب سایت تک فان است