V přeplněné kanceláři s otevřeným prostorem v Mountain View v Kalifornii se vysoký a štíhlý robot na kolech zaměstnával hraním průvodce a neformálního pomocníka v kanceláři – díky velkému upgradu jazykového modelu dnes odhalil Google DeepMind. Robot používá nejnovější verzi velkého jazykového modelu Gemini od Googlu k analýze příkazů a nalezení cesty.
Když například člověk řekne: „Najděte si mě, kde budu psát“, robot se poslušně odkočí a odvede osobu k nedotčené tabuli umístěné někde v budově.
Schopnost Gemini pracovat s videem a textem – kromě schopnosti přijímat velké množství informací ve formě dříve nahraných videoprohlídek kanceláře – umožňuje robotovi „pomocníka Google“ porozumět svému prostředí a správně se pohybovat, když mu zadávají příkazy. které vyžadují zdravý rozum. Robot kombinuje Gemini s algoritmem, který generuje konkrétní akce, které má robot provést, jako je otáčení, v reakci na příkazy a na to, co vidí před sebou.
Když byl Gemini v prosinci představen, Demis Hassabis, generální ředitel Google DeepMind, řekl WIRED, že jeho multimodální schopnosti pravděpodobně odemknou nové schopnosti robotů. Dodal, že výzkumníci společnosti usilovně testovali robotický potenciál modelu.
V novém dokumentu popisujícím projekt výzkumníci stojící za prací uvádějí, že jejich robot dokázal být až z 90 procent spolehlivý při navigaci, i když dostal složité příkazy jako „Kde jsem nechal svou dráhu?“ Systém DeepMind „výrazně zlepšil přirozenost interakce mezi člověkem a robotem a výrazně zvýšil použitelnost robota,“ píše tým.
Demo úhledně ilustruje potenciál velkých jazykových modelů proniknout do fyzického světa a dělat užitečnou práci. Gemini a další chatboti většinou fungují v rámci webového prohlížeče nebo aplikace, i když jsou stále více schopni zpracovávat vizuální a sluchové vstupy, jak nedávno prokázaly Google i OpenAI. V květnu Hassabis předvedl vylepšenou verzi Gemini schopnou dát smysl uspořádání kanceláře, jak je vidět prostřednictvím fotoaparátu smartphonu.
Akademické a průmyslové výzkumné laboratoře se předhánějí v tom, jak lze jazykové modely využít ke zlepšení schopností robotů. Květnový program Mezinárodní konference o robotice a automatizaci, oblíbené akce pro výzkumníky v oblasti robotiky, uvádí téměř dvě desítky příspěvků, které zahrnují použití modelů jazyka vidění.
Investoři nalévají peníze do startupů, jejichž cílem je aplikovat pokroky v AI na robotiku. Několik výzkumníků zapojených do projektu Google od té doby opustilo společnost a založilo startup s názvem Physical Intelligence, který získal počáteční financování ve výši 70 milionů dolarů; pracuje na kombinaci velkých jazykových modelů s tréninkem v reálném světě, aby robotům poskytl obecné schopnosti řešit problémy. Podobný cíl má i Skild AI, kterou založili robotici z Carnegie Mellon University. Tento měsíc oznámila financování ve výši 300 milionů dolarů.
Ještě před pár lety potřeboval robot k úspěšné navigaci mapu svého prostředí a pečlivě zvolené příkazy. Velké jazykové modely obsahují užitečné informace o fyzickém světě a novější verze, které jsou trénovány na obrázcích a videu a také na textu, známé jako modely jazyka vidění, mohou odpovídat na otázky, které vyžadují vnímání. Gemini umožňuje robotovi Google analyzovat vizuální pokyny i mluvené pokyny podle náčrtu na tabuli, který ukazuje cestu k novému cíli.
Ve svém článku vědci říkají, že plánují testovat systém na různých druzích robotů. Dodávají, že Blíženci by měli být schopni porozumět složitějším otázkám, jako například „Mají dnes můj oblíbený nápoj?“ od uživatele se spoustou prázdných plechovek od koly na stole.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com