Úkol, jak dát AI chatbotům ruku a paži

Peter Chen, generální ředitel softwarové společnosti Covariant pro roboty, sedí před rozhraním chatbota, které se podobá tomu, které se používá ke komunikaci s ChatGPT. „Ukaž mi tašku před tebou,“ píše. Jako odpověď se objeví video, které odhaluje robotickou paži nad košem obsahujícím různé předměty – pár ponožek, tubu chipsů a mezi nimi jablko.

Chatbot může diskutovat o předmětech, které vidí, ale také s nimi manipulovat. Když WIRED navrhne Chenovi, aby ho požádal, aby uchopil kousek ovoce, paže se natáhne, jemně uchopí jablko a přesune ho do jiné přihrádky poblíž.

Tento praktický chatbot je krokem k tomu, aby roboti měli obecné a flexibilní schopnosti, které vykazují programy jako ChatGPT. Existuje naděje, že by umělá inteligence mohla konečně napravit dlouhotrvající potíže s programováním robotů a nechat je dělat víc než jen úzkou sadu domácích prací.

„V tuto chvíli není vůbec kontroverzní tvrdit, že základní modely jsou budoucností robotiky,“ říká Chen a používá termín pro rozsáhlé modely strojového učení pro všeobecné účely vyvinuté pro konkrétní doménu. Šikovný chatbot, který mi ukázal, je poháněn modelem vyvinutým společností Covariant s názvem RFM-1 pro Robot Foundation Model. Stejně jako ti, kteří stojí za ChatGPT, Google Gemini a dalšími chatboty, i tento byl trénován s velkým množstvím textu, ale také byl napájen videem a hardwarovým ovládáním a pohybovými daty z desítek milionů příkladů pohybů robotů pocházejících z fyzické práce. svět.

Včetně těchto dodatečných dat vytváří model nejen plynule v jazyce, ale také v akci a který je schopen obojí propojit. RFM-1 dokáže nejen chatovat a ovládat rameno robota, ale také generovat videa ukazující roboty, kteří dělají různé domácí práce. Po výzvě RFM-1 ukáže, jak by měl robot uchopit předmět z přeplněného koše. „Může přijmout všechny tyto různé modality, které jsou pro robotiku důležité, a může také vytvořit jakýkoli z nich,“ říká Chen. „Je to trochu ohromující.“

Video generované modelem RFM-1 AI.S laskavým svolením Covariantu

Model také ukázal, že se může naučit ovládat podobný hardware, který není ve svých tréninkových datech. S dalším školením by to mohlo dokonce znamenat, že stejný obecný model by mohl ovládat humanoidního robota, říká Pieter Abbeel, spoluzakladatel a hlavní vědec společnosti Covariant, který je průkopníkem učení robotů. V roce 2010 vedl projekt, který vycvičil robota, aby skládal ručníky – i když pomalu – a pracoval také v OpenAI, než přestala dělat výzkum robotů.

Společnost Covariant, založená v roce 2017, v současné době prodává software, který pomocí strojového učení umožňuje robotickým ramenům vybírat položky z přihrádek ve skladech, ale obvykle se omezují na úkol, na který se cvičili. Abeel říká, že modely jako RFM-1 by mohly robotům umožnit mnohem plynuleji obrátit svá chapadla na nové úkoly. Srovnává strategii Covariantu s tím, jak Tesla využívá data z prodaných vozů k trénování svých samořídících algoritmů. „Je to něco podobného, co tady hrajeme,“ říká.

Abeel a jeho kolegové z Covariantu nejsou zdaleka jediní robotici, kteří doufají, že schopnosti velkých jazykových modelů za ChatGPT a podobnými programy mohou způsobit revoluci v robotice. Projekty jako RFM-1 ukázaly slibné rané výsledky. Ale kolik dat může být potřeba k trénování modelů, které tvoří roboty s mnohem obecnějšími schopnostmi – a jak je shromáždit – je otevřenou otázkou.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com