نتایج یک بنچمارک جدید نشان میدهد چت جی پی تی ۵ (GPT-5) در ۴۰ درصد مواقع عملکردی برابر یا بهتر از متخصصان واقعی داشته است.
به گزارش تکراتو و به نقل از androidheadlines، شرکت OpenAI اخیراً مدل GPT-5 خود را با استفاده از بنچمارک جدید GDPval روی مشاغل واقعی در نه صنعت مختلف آزمایش کرده است تا توانایی هوش مصنوعی در انجام کارهای انسانی را بررسی کند. نتایج نشان میدهد که GPT-5 در ۴۰.۶ درصد موارد عملکردی برابر یا بهتر از کارشناسان داشته است.
بنچمارک GDPval به گونهای طراحی شده که عملکرد مدلهای هوش مصنوعی را روی وظایفی که انسانها در محیط کاری انجام میدهند ارزیابی کند. این آزمایش شامل صنایع مختلفی مانند بهداشت و درمان، مالی، تولید و بخش دولتی میشود.
در یکی از آزمایشها، گزارشهای تولید شده توسط GPT-5 با گزارشهای کارشناسان انسانی مقایسه شد. در آزمایش دیگر، بانکداران سرمایهگذاری یک تحلیل رقابتی از صنعت تحویل آخرین مایل ایجاد کردند و آن را با گزارشهای تولید شده توسط هوش مصنوعی مقایسه کردند.
نتایج نشان داد که GPT-5 بهترین عملکرد را در میان مدلهای OpenAI داشته و توانسته در بسیاری از وظایف پیچیده عملکردی شبیه یا بهتر از متخصصان ارائه دهد.
رقیب این شرکت، Anthropic با مدل Claude، در برخی وظایف با نرخ موفقیت ۴۹ درصد عملکرد بهتری داشت، اما این به دلیل توانایی بهتر Claude در تولید گرافیکهای جذاب بود.
به گفته دکتر آرون چاترجی، اقتصاددان ارشد OpenAI، هدف اصلی از استفاده از GPT-5 جایگزینی انسانها نیست، بلکه کمک به آزادسازی زمان انسانها برای انجام کارهای با ارزش بالاتر است.
برای مثال، به جای صرف ساعتها برای تهیه و قالببندی گزارشها، GPT-5 میتواند آنها را در چند دقیقه آماده کند و زمان شما را برای سایر وظایف کاری یا شخصی آزاد کند.
طراحی و اجرا :
وین تم
هر گونه کپی برداری از طرح قالب یا مطالب پیگرد قانونی خواهد داشت ، کلیه حقوق این وب سایت متعلق به وب سایت تک فان است
دیدگاهتان را بنویسید