پیزیرو: نیم نگاهی به آینده رباتهای هوش مصنوعی خانه دار!
شرکت فیزیکال اینتلیجنس، یک استارتاپ با سرمایهگذاری بالا که به دنبال دستیابی به یک جهش در زمینه هوش رباتیک است، رباتی را توسعه داده که قادر است وظایف مختلف خانهداری را بهطرز قابلتوجهی انجام دهد.
ایده رباتی که میتواند دامنه وسیعی از کارهای خانهداری را انجام دهد، از تخلیه خشککن و تا کردن لباسها تا تمیز کردن یک میز نامرتب، مدتهاست که بهعنوان یک علم تخیلی خالص به نظر میرسد—که شاید معروفترین تجسم آن، ربات «روزی» در انیمیشن «جتسونها» باشد که در دهه 1960 ساخته شد.
شرکت فیزیکال اینتلیجنس، مستقر در سانفرانسیسکو، نشان داده که چنین رویایی ممکن است در واقع آنقدرها هم دور از دسترس نباشد و یک مدل هوش مصنوعی واحد را به نمایش گذاشته که توانسته است با آموزش بر اساس حجم بیسابقهای از دادهها، دامنه وسیعی از کارهای مفید خانگی—از جمله تمام موارد فوق—را یاد بگیرد.
این دستاورد، چشمانداز ورود چیزی به همین اندازه شگفتانگیز و معمولاً توانا مانند سایر مدلهای هوش مصنوعی مانند ChatGPT به دنیای فیزیکی را مطرح میکند.
ظهور مدلهای زبان بزرگ (LLMs)—الگوریتمهای یادگیری چندمنظوره که با حجم وسیعی از متنها از کتابها و اینترنت تغذیه میشوند—به چتباتها قابلیتهای بسیار بیشتری بخشیده است. شرکت فیزیکال اینتلیجنس قصد دارد چیزی مشابه با این قابلیتها را در دنیای فیزیکی ایجاد کند، اما بهجای متن، الگوریتمی مشابه را با استفاده از مقادیر عظیمی از دادههای رباتیکی آموزش دهد.
کارول هاوسمن، مدیرعامل این شرکت، میگوید: «ما یک فرمول بسیار کلی داریم که میتواند از دادههای انواع مختلف رباتها بهرهبرداری کند و مشابه شیوهای است که افراد مدلهای زبانی را آموزش میدهند.»
این شرکت در طول هشت ماه گذشته، مدل پایه خود را به نام π0 یا پیزیرو توسعه داده است. پیزیرو با استفاده از حجم زیادی از دادهها از چندین نوع ربات که وظایف مختلف خانگی را انجام میدهند، آموزش دیده است. این شرکت معمولاً از انسانها میخواهد تا رباتها را از راه دور کنترل کنند تا آموزشهای لازم را فراهم کنند.
فیزیکال اینتلیجنس، که همچنین بهعنوان PI یا π (PI مخفف عبارت Physical Intelligence است) شناخته میشود، اوایل امسال با همکاری چندین محقق برجسته در زمینه رباتیک تأسیس شد تا به دنبال رویکرد جدیدی در رباتیک باشد که از پیشرفتهای تواناییهای زبانی هوش مصنوعی الهام گرفته است.
سرگئی لوین، یکی از بنیانگذاران فیزیکال اینتلیجنس و استاد مدعو در دانشگاه کالیفرنیا، برکلی، میگوید: «به نظر ما حجم دادهای که ما بر روی آن آموزش میبینیم، بهمراتب بزرگتر از هر مدل رباتیکی است که تا به حال ساخته شده. این حجم دادهها به هیچ وجه به سطح ChatGPT نمیرسد، اما شاید نزدیک به GPT-1 باشد»
او به اولین مدل زبان بزرگ توسعه یافته توسط OpenAI در سال ۲۰۱۸ اشاره دارد.
ویدئوهای منتشر شده از سوی فیزیکال اینتلیجنس، نمایشگر مدلهای مختلف رباتها هستند که وظایف خانهداری را با مهارت چشمگیری انجام میدهند. یک ربات چرخدار به داخل خشککن میرود تا لباسها را بیرون بیاورد. یک بازوی رباتیک، میز شلوغی پر از لیوان و بشقاب را تمیز میکند. دو بازوی رباتیک لباسها را گرفته و تا میکنند. یکی دیگر از دستاوردهای چشمگیر الگوریتم این شرکت، ساخت یک جعبه مقوایی است که شامل خم کردن ملایم لبههای آن و متصل کردن قطعات بهطور دقیق توسط ربات میشود.
کارول هاوسمن میگوید: «تا کردن لباسها بهویژه برای رباتها چالشبرانگیز است، زیرا نیاز به هوش عمومی بیشتری درباره دنیای فیزیکی دارد، زیرا این کار مستلزم مواجهه با دامنه وسیعی از اقلام انعطافپذیر است که بهطور غیرقابل پیشبینی تغییر شکل میدهند و چروک میشوند.»
این الگوریتم برخی از ویژگیهای بهطوری تعجبآور و انسانی را نشان میدهد، بهعنوان مثال با تکان دادن تیشرتها و شلوارکها تا آنها را بهطور صاف بر روی زمین قرار دهد.
کارول هاوسمن اشاره میکند که این الگوریتم بهطور کامل عمل نمیکند و مانند چتباتهای مدرن، رباتها گاهی اوقات در شیوههای غیرمنتظره و خندهداری دچار مشکل میشوند. برای مثال، هنگامی که از یک ربات خواسته شد تا تخممرغها را در یک جعبه قرار دهد، آن ربات تصمیم گرفت که جعبه را بیش از حد پر کند و باعث شود که در بسته شود. در موردی دیگر، یک ربات ناگهان یک جعبه را از روی میز پرتاب کرد بهجای اینکه آن را با وسایل پر کند.
ایجاد رباتهایی با قابلیتهای عمومیتر نه تنها یک موضوع علمی تخیلی است، بلکه بهطور واضح یک فرصت تجاری عظیم نیز به شمار میرود.
با وجود پیشرفتهای شگفتانگیز در زمینه هوش مصنوعی در سالهای اخیر، رباتها همچنان بهطرز سرسختی احمق و محدود باقی ماندهاند. رباتهایی که در کارخانهها و انبارها پیدا میشوند، معمولاً فقط از روی روالهای بهدقت طراحیشده عبور میکنند و توانایی چندانی برای درک محیط یا سازگاری بهصورت فوری ندارند. تنها تعداد کمی از رباتهای صنعتی که میتوانند اشیاء را ببینند و بگیرند، بهدلیل کمبود هوش عمومی فیزیکی، تنها میتوانند تعداد محدودی از کارها را با حداقل چابکی انجام دهند.
رباتهای با قابلیتهای عمومیتر میتوانند طیف وسیعتری از وظایف صنعتی را بر عهده بگیرند، شاید پس از انجام یک نمایش حداقلی. این رباتها همچنین به قابلیتهای عمومیتری نیاز دارند تا بتوانند با تنوع و بینظمیهای فراوان در خانههای انسانی کنار بیایند.
هیجان عمومی درباره پیشرفتهای هوش مصنوعی به امیدواری نسبت به جهشهای بزرگ در رباتیک تبدیل شده است. شرکت خودروسازی تسلا، به رهبری ایلان ماسک، در حال توسعه رباتی انساننما به نام «اُپتیموس» است و ماسک بهتازگی پیشنهاد کرد که این ربات تا سال ۲۰۴۰ با قیمت ۲۰,۰۰۰ تا ۲۵,۰۰۰ دلار بهطور گستردهای در دسترس خواهد بود و قادر به انجام اکثر وظایف خواهد بود.
تلاشهای قبلی برای آموزش رباتها در انجام وظایف چالشبرانگیز، بیشتر بر روی آموزش یک ماشین برای انجام یک وظیفه متمرکز شده بود، زیرا بهنظر میرسید که یادگیری قابل انتقال نیست. اما برخی از کارهای اخیر در حوزه آکادمیک نشان دادهاند که با مقیاس و تنظیم دقیق کافی، یادگیری میتواند بین وظایف و رباتهای مختلف منتقل شود. یک پروژه گوگل در سال ۲۰۲۳ به نام «Open X-Embodiment» شامل به اشتراکگذاری یادگیری رباتها بین ۲۲ ربات مختلف در ۲۱ آزمایشگاه تحقیقاتی متفاوت بود.
یک چالش کلیدی در استراتژی که فیزیکال اینتلیجنس دنبال میکند این است که مقیاس دادههای رباتیک برای آموزش به اندازه دادههای متنی برای مدلهای زبان بزرگ وجود ندارد. بنابراین، این شرکت باید دادههای خود را تولید کرده و تکنیکهایی برای بهبود یادگیری از یک مجموعه داده محدود ارائه دهد. برای توسعه پیزیرو، این شرکت مدلهای زبان تصویری را که بر روی تصاویر و متن آموزش دیدهاند، با مدلسازی انتشار، که تکنیکی از تولید تصویر توسط هوش مصنوعی است، ترکیب کرده است تا نوعی یادگیری عمومیتر را ممکن سازد.
برای اینکه رباتها بتوانند هر کار رباتیکی را که شخص از آنها میخواهد انجام دهند، نیاز به مقیاسدهی قابل توجهی در این نوع یادگیری وجود دارد. سرگئی لوین میگوید: «هنوز راه طولانی در پیش است، اما ما چیزی داریم که میتوان بهعنوان سازهای در نظر گرفت که چشماندازهای آینده را نشان میدهد.»