گوگل دیپمایند با معرفی مدلهای جدید هوش مصنوعی Gemini Robotics، گام بزرگی در توسعه رباتهایی برداشت که میتوانند پیش از انجام کارها «فکر» کنند.
به گزارش تکراتو و به نقل از arstechnica، سیستمهای هوش مصنوعی مولد که متن، تصویر، صدا و حتی ویدئو تولید میکنند به بخشی رایج از دنیای فناوری تبدیل شدهاند. همانطور که این مدلها میتوانند انواع داده را تولید کنند، از آنها میتوان برای تولید عملکرد رباتها نیز استفاده کرد.
این همان پایه پروژه Gemini Robotics گوگل دیپمایند است که به تازگی از دو مدل جدید پرده برداشت؛ مدلهایی که با همکاری هم نخستین رباتهایی را میسازند که پیش از عمل، «فکر» میکنند.
هرچند مدلهای زبانی سنتی مشکلات خاص خود را داشتند، اما شبیهسازی فرایند استدلال توانست تواناییهای آنها را به شکل قابل توجهی ارتقا دهد و اکنون همین مسیر در دنیای رباتیک با هوش مصنوعی دنبال میشود.
تیم دیپمایند معتقد است هوش مصنوعی مولد برای رباتیک اهمیت ویژهای دارد زیرا قابلیتهای عمومی را برای آن باز میکند. رباتهای امروزی باید برای وظایف خاص به شدت آموزش ببینند و معمولا در کارهای دیگر ضعیف هستند.
کارولینا پارادا، مدیر بخش رباتیک گوگل دیپمایند، میگوید: رباتهای امروز بسیار اختصاصی و دشوار برای استقرار هستند و راهاندازی یک سلول که تنها یک وظیفه را انجام دهد ممکن است ماهها طول بکشد.
ویژگی بنیادی سیستمهای مولد این است که رباتهای مجهز به هوش مصنوعی میتوانند با موقعیتها و محیطهای کاملا جدید روبهرو شوند بدون اینکه نیاز به برنامهریزی دوباره داشته باشند. رویکرد کنونی دیپمایند در رباتیک بر دو مدل تکیه دارد: یکی برای فکر کردن و دیگری برای عمل کردن.
این دو مدل جدید با نام Gemini Robotics 1.5 و Gemini Robotics-ER 1.5 شناخته میشوند. نخستین مدل یک مدل دیداری-زبانی-عملی است که از دادههای تصویری و متنی برای تولید اقدامات ربات استفاده میکند.
مدل دوم که با نام ER شناخته میشود، یک مدل دیداری-زبانی با قابلیت استدلال درونی است که ورودیهای تصویری و متنی را گرفته و مراحل لازم برای انجام یک وظیفه پیچیده را تولید میکند.
مدل Gemini Robotics-ER 1.5 نخستین هوش مصنوعی رباتیک است که توانایی استدلال شبیهسازیشده مانند چتباتهای متنی مدرن را دارد. گوگل این توانایی را «فکر کردن» مینامد، هرچند در دنیای هوش مصنوعی مولد این توصیف دقیق نیست.
دیپمایند میگوید مدل ER توانسته بالاترین امتیازات را در آزمونهای دانشگاهی و داخلی کسب کند که نشان میدهد میتواند درباره تعامل با محیط فیزیکی تصمیمات دقیقی بگیرد. این مدل البته اقدام مستقیمی انجام نمیدهد و این وظیفه بر عهده Gemini Robotics 1.5 است.
به عنوان نمونه، اگر از ربات بخواهید لباسهای شستهشده را بر اساس رنگ دستهبندی کند، مدل ER ابتدا درخواست و تصاویر محیط (توده لباسها) را پردازش میکند.
این هوش مصنوعی حتی میتواند از ابزارهایی مانند جستجوی گوگل برای دریافت اطلاعات بیشتر استفاده کند. سپس دستورالعملهای زبانی و مراحل مشخصی را برای انجام وظیفه تولید میکند.
مدل Gemini Robotics 1.5 این دستورالعملها را دریافت کرده و با استفاده از دادههای تصویری برای هدایت حرکات، آنها را به عمل تبدیل میکند. اما علاوه بر این، فرآیند تفکر داخلی خودش را هم طی میکند تا بهترین روش را برای اجرای هر مرحله انتخاب کند.
کانیشکا رائو از دیپمایند میگوید: انسانها هنگام انجام کار از افکار شهودی برای هدایت استفاده میکنند اما رباتها چنین شهودی ندارند. یکی از بزرگترین پیشرفتهای مدل ۱٫۵ در بخش VLA توانایی فکر کردن پیش از عمل است.
هر دو مدل جدید رباتیک دیپمایند بر اساس مدلهای بنیادین Gemini ساخته شدهاند اما با دادههایی آموزش دیدهاند که آنها را برای فعالیت در فضای فیزیکی آماده میکند.
تیم توسعه میگوید این رویکرد به رباتها امکان میدهد وظایف چندمرحلهای و پیچیده را انجام دهند و تواناییهای عاملمحور را وارد رباتیک کنند.
تیم دیپمایند این فناوری را روی رباتهای مختلفی مانند Aloha 2 با دو بازو و ربات انساننمای Apollo آزمایش کرده است. در گذشته محققان مجبور بودند برای هر ربات مدلهای اختصاصی بسازند، اما اکنون دیگر نیازی به این کار نیست.
دیپمایند میگوید Gemini Robotics 1.5 میتواند مهارتهای آموختهشده در یک ربات مانند گیرههای Aloha 2 را به دستهای پیچیدهتر Apollo منتقل کند، بدون نیاز به تنظیمات ویژه.
با این حال هنوز راه زیادی تا رسیدن به رباتی که بتوانید از او بخواهید لباسهایتان را بشوید باقی مانده است. مدل Gemini Robotics 1.5 که کنترل مستقیم رباتها را بر عهده دارد فعلا تنها برای آزمایشکنندگان مورد اعتماد در دسترس است.
اما مدل ER که بخش تفکر را انجام میدهد، اکنون در Google AI Studio عرضه شده و به توسعهدهندگان امکان میدهد دستورالعملهای رباتیک خود را برای آزمایشهای فیزیکی تولید کنند.
طراحی و اجرا :
وین تم
هر گونه کپی برداری از طرح قالب یا مطالب پیگرد قانونی خواهد داشت ، کلیه حقوق این وب سایت متعلق به وب سایت تک فان است
دیدگاهتان را بنویسید