سامسونگ با معرفی معیار جدید TRUEBench قصد دارد ارزیابی دقیقتر و نزدیکتر به واقعیت از بهرهوری هوش مصنوعی در وظایف کاری ارائه دهد.
به گزارش تکراتو و به نقل از androidheadlines، مرکز تحقیقاتی سامسونگ ابزاری تازه به نام TRUEBench معرفی کرده که هدف آن رفع کاستیهای ابزارهای فعلی ارزیابی هوش مصنوعی است.
این معیار تازه امکان سنجشی واقعیتر از بهرهوری هوش مصنوعی در وظایف کاری و سازمانی را فراهم میکند و بر پایه همکاری انسان و هوش مصنوعی طراحی شده است. TRUEBench بیش از ۲۴۰۰ مجموعه آزمایشی در ۱۲ زبان مختلف دارد تا دقت و جامعیت نتایج تضمین شود.
سامسونگ برخلاف شرکتهایی مانند Perplexity یا OpenAI تمرکز کامل روی هوش مصنوعی ندارد. با این حال استراتژی کوتاهمدت و بلندمدت این شرکت ادغام هوش مصنوعی در بیشتر محصولات خود در تمامی بخشهاست.
مجموعه قابلیتهای Galaxy AI در گوشیها و تبلتهای این شرکت نمونهای از این رویکرد است. در همین مسیر، مرکز تحقیقاتی سامسونگ ابزار اختصاصی TRUEBench را برای ارزیابی بهرهوری هوش مصنوعی توسعه داده است.
این معیار جدید با نام کامل Trustworthy Real-world Usage Evaluation Benchmark یا TRUEBench طراحی شده تا محدودیتهای موجود در معیارهای رایج را برطرف کند.
سامسونگ میگوید ابزارهای فعلی بیش از حد روی زبان انگلیسی متمرکز هستند و معمولا ساختار ساده پرسش و پاسخ یکمرحلهای دارند. این موضوع باعث میشود توانایی واقعی هوش مصنوعی در محیطهای کاری دقیق بازتاب پیدا نکند.
TRUEBench با هدف ارائه ارزیابی جامعتر و واقعیتر از عملکرد مدلهای زبانی بزرگ در محیطهای حرفهای ساخته شده است. این معیار توانایی هوش مصنوعی را در ده وظیفه پرکاربرد سازمانی میسنجد؛ از جمله تولید محتوا، تحلیل داده، خلاصهسازی و ترجمه.
این مجموعه شامل ۲۴۸۵ آزمون در ده دسته اصلی و ۴۶ زیردسته است که سناریوهای متنوعی را در قالب گفتگو به ۱۲ زبان پوشش میدهد.
مجموعه آزمونها از متونی به کوتاهی ۸ کاراکتر تا متونی بیش از ۲۰ هزار کاراکتر را شامل میشود تا طیف وسیعی از وظایف، از درخواستهای ساده تا خلاصهسازی اسناد طولانی، سنجیده شود.
برای اطمینان از دقت و صحت نتایج، TRUEBench از یک سیستم ارزیابی ترکیبی بهره میگیرد که هم انسان و هم هوش مصنوعی در آن نقش دارند. در ابتدا ارزیابهای انسانی معیارهای اولیه را مشخص میکنند.
سپس یک هوش مصنوعی این معیارها را بررسی میکند تا خطاها یا محدودیتهای غیرضروری شناسایی شود. در ادامه، انسانها دوباره بر اساس بازخورد هوش مصنوعی معیارها را اصلاح میکنند و این چرخه تکرار میشود تا استانداردی هرچه دقیقتر ایجاد گردد.
این روش چندلایه به کاهش سوگیریهای ذهنی کمک میکند. برای قبولی در این آزمون، یک مدل هوش مصنوعی باید همه شرایط تعیینشده را برآورده کند و همین باعث میشود امتیازدهی جزئیتر و دقیقتر انجام گیرد.
سامسونگ دادههای نمونه و جدولهای رتبهبندی TRUEBench را روی پلتفرم متنباز Hugging Face منتشر کرده است. این پلتفرم به توسعهدهندگان و پژوهشگران اجازه میدهد عملکرد و بهرهوری تا پنج مدل هوش مصنوعی مختلف را بهطور همزمان مقایسه کنند.
همچنین این شرکت قصد دارد دادههایی درباره میانگین طول پاسخ مدلها منتشر کند تا مقایسهای سریع از نظر کارایی و بهرهوری در دسترس باشد.
به گفته سامسونگ، هدف از توسعه TRUEBench ایجاد استانداردهای تازه برای ارزیابی بهرهوری و تقویت جایگاه فناوری این شرکت است. در اصل، این معیار وعده ارائه شاخصهایی واقعیتر و قابل اعتمادتر در حوزه هوش مصنوعی را میدهد.
طراحی و اجرا :
وین تم
هر گونه کپی برداری از طرح قالب یا مطالب پیگرد قانونی خواهد داشت ، کلیه حقوق این وب سایت متعلق به وب سایت تک فان است
دیدگاهتان را بنویسید