Robot Google DeepMind poháněný Chatbotem je součástí větší revoluce

V přeplněné kanceláři s otevřeným prostorem v Mountain View v Kalifornii se vysoký a štíhlý robot na kolech zaměstnával hraním průvodce a neformálního pomocníka v kanceláři – díky velkému upgradu jazykového modelu dnes odhalil Google DeepMind. Robot používá nejnovější verzi velkého jazykového modelu Gemini od Googlu k analýze příkazů a nalezení cesty.

Když například člověk řekne: „Najděte si mě, kde budu psát“, robot se poslušně odkočí a odvede osobu k nedotčené tabuli umístěné někde v budově.

Schopnost Gemini pracovat s videem a textem – kromě schopnosti přijímat velké množství informací ve formě dříve nahraných videoprohlídek kanceláře – umožňuje robotovi „pomocníka Google“ porozumět svému prostředí a správně se pohybovat, když mu zadávají příkazy. které vyžadují zdravý rozum. Robot kombinuje Gemini s algoritmem, který generuje konkrétní akce, které má robot provést, jako je otáčení, v reakci na příkazy a na to, co vidí před sebou.

Když byl Gemini v prosinci představen, Demis Hassabis, generální ředitel Google DeepMind, řekl WIRED, že jeho multimodální schopnosti pravděpodobně odemknou nové schopnosti robotů. Dodal, že výzkumníci společnosti usilovně testovali robotický potenciál modelu.

V novém dokumentu popisujícím projekt výzkumníci stojící za prací uvádějí, že jejich robot dokázal být až z 90 procent spolehlivý při navigaci, i když dostal složité příkazy jako „Kde jsem nechal svou dráhu?“ Systém DeepMind „výrazně zlepšil přirozenost interakce mezi člověkem a robotem a výrazně zvýšil použitelnost robota,“ píše tým.

Fotka zaměstnance Google DeepMind při interakci s robotem AI.

Demo úhledně ilustruje potenciál velkých jazykových modelů proniknout do fyzického světa a dělat užitečnou práci. Gemini a další chatboti většinou fungují v rámci webového prohlížeče nebo aplikace, i když jsou stále více schopni zpracovávat vizuální a sluchové vstupy, jak nedávno prokázaly Google i OpenAI. V květnu Hassabis předvedl vylepšenou verzi Gemini schopnou dát smysl uspořádání kanceláře, jak je vidět prostřednictvím fotoaparátu smartphonu.

Akademické a průmyslové výzkumné laboratoře se předhánějí v tom, jak lze jazykové modely využít ke zlepšení schopností robotů. Květnový program Mezinárodní konference o robotice a automatizaci, oblíbené akce pro výzkumníky v oblasti robotiky, uvádí téměř dvě desítky příspěvků, které zahrnují použití modelů jazyka vidění.

Investoři nalévají peníze do startupů, jejichž cílem je aplikovat pokroky v AI na robotiku. Několik výzkumníků zapojených do projektu Google od té doby opustilo společnost a založilo startup s názvem Physical Intelligence, který získal počáteční financování ve výši 70 milionů dolarů; pracuje na kombinaci velkých jazykových modelů s tréninkem v reálném světě, aby robotům poskytl obecné schopnosti řešit problémy. Podobný cíl má i Skild AI, kterou založili robotici z Carnegie Mellon University. Tento měsíc oznámila financování ve výši 300 milionů dolarů.

Ještě před pár lety potřeboval robot k úspěšné navigaci mapu svého prostředí a pečlivě zvolené příkazy. Velké jazykové modely obsahují užitečné informace o fyzickém světě a novější verze, které jsou trénovány na obrázcích a videu a také na textu, známé jako modely jazyka vidění, mohou odpovídat na otázky, které vyžadují vnímání. Gemini umožňuje robotovi Google analyzovat vizuální pokyny i mluvené pokyny podle náčrtu na tabuli, který ukazuje cestu k novému cíli.

Ve svém článku vědci říkají, že plánují testovat systém na různých druzích robotů. Dodávají, že Blíženci by měli být schopni porozumět složitějším otázkám, jako například „Mají dnes můj oblíbený nápoj?“ od uživatele se spoustou prázdných plechovek od koly na stole.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com

Po	Út	St	Čt	Pá	So	Ne
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Nákup už není jen nákup: Source-to-Pay, technologický model, který převratně mění nabídku ve společnostech

Co je Adobe Firefly? Zde je návod, jak používat tento výkonný generativní nástroj AI

Vast’s Haven Demo startuje za účelem testování technologie komerční vesmírné stanice

SpaceX zjednodušuje plán Lunar Lander pro NASA Artemis

Boom datových center umělé inteligence pokřivuje americkou ekonomiku

Seznamte se s čínským startupem využívajícím umělou inteligenci – a malou armádu pracovníků – k výcviku robotů

Robot Google DeepMind poháněný Chatbotem je součástí větší revoluce

Podobné příspěvky