Pulkit Agrawal, odborný asistent na MIT, který pracuje na umělé inteligenci a robotice, říká, že nejnovější ukázky Google a OpenAI jsou působivé a ukazují, jak rychle se multimodální modely umělé inteligence rozvíjely. OpenAI spustilo GPT-4V, systém schopný analyzovat obrázky v září 2023. Zaujalo ho, že Gemini dokáže dát smysl živému videu – například správně interpretovat změny provedené v diagramu na tabuli v reálném čase. Zdá se, že nová verze ChatGPT od OpenAI dokáže totéž.
Agrawal říká, že asistenti ukázaní Googlem a OpenAI by mohli společnostem poskytnout nová školicí data, protože uživatelé komunikují s modely v reálném světě. „Ale musí být užitečné,“ dodává. „Velkou otázkou je, k čemu je lidé budou používat – není to příliš jasné.“
Google říká, že Project Astra bude zpřístupněn prostřednictvím nového rozhraní nazvaného Gemini Live koncem tohoto roku. Hassabis uvedl, že společnost stále testuje několik prototypů chytrých brýlí a musí se ještě rozhodnout, zda některé z nich uvést na trh.
Schopnosti Astra mohou Googlu poskytnout příležitost restartovat verzi jeho nešťastných chytrých brýlí Glass, ačkoli snahy o vytvoření hardwaru vhodného pro generativní AI zatím klopýtly. Navzdory působivým ukázkám OpenAI a Google nemohou multimodální mody plně porozumět fyzickému světu a objektům v něm, což omezuje to, co budou moci dělat.
„Schopnost sestavit mentální model fyzického světa kolem vás je naprosto nezbytná pro budování další lidské inteligence,“ říká Brenden Lake, docent na New York University, který používá AI ke zkoumání lidské inteligence.
Lake poznamenává, že dnešní nejlepší modely umělé inteligence jsou stále velmi jazykově orientované, protože většina jejich učení pochází z textu z knih a webu. To se zásadně liší od toho, jak se jazyk učí lidé, kteří si ho osvojují při interakci s fyzickým světem. „Je to zpět ve srovnání s vývojem dítěte,“ říká o procesu vytváření multimodálních modelů.
Hassabis věří, že prodchnutí modelů umělé inteligence hlubším pochopením fyzického světa bude klíčem k dalšímu pokroku v oblasti umělé inteligence a k tomu, aby byly systémy jako Project Astra robustnější. Jiné hranice AI, včetně práce Google DeepMind na programech AI pro hraní her, by podle něj mohly pomoci. Hassabis a další doufají, že taková práce by mohla být revoluční pro robotiku, což je oblast, do které Google také investuje.
„Multimodální univerzální agent asistent je na cestě k umělé obecné inteligenci,“ řekl Hassabis s odkazem na očekávaný, ale do značné míry nedefinovaný budoucí bod, kdy stroje mohou dělat cokoliv a všechno, co lidská mysl může. „Tohle není AGI nebo tak něco, ale je to začátek něčeho.“
Aktualizováno 14.5.2024, 16:15 EDT: Tento článek byl aktualizován, aby objasnil celý název projektu Google.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com