Testoval jsem asistenta AI nové generace. To vás strhne

Nejznámější virtuální komorníci současnosti – Siri, Alexa a Google Assistant – jsou mnohem méně působiví než nejnovější chatboti s umělou inteligencí, jako je ChatGPT nebo Google Bard. Když se plody nedávného generativního boomu umělé inteligence řádně začlení do těchto starších asistenčních robotů, budou jistě mnohem zajímavější.

Abych získal náhled na to, co bude dál, vzal jsem si k testovacímu provozu experimentálního hlasového pomocníka AI s názvem vimGPT. Když jsem jej požádal, aby se „přihlásil k odběru WIRED“, začal pracovat s působivou dovedností, najít správnou webovou stránku a získat přístup k online formuláři. Pokud by měl přístup k údajům o mé kreditní kartě, jsem si docela jistý, že by to vyřešil.

Ačkoli to pro člověka není test inteligence, nákup něčeho online na otevřeném webu je mnohem komplikovanější a náročnější než úkoly, které obvykle řeší Siri, Alexa nebo Google Assistant. (Nastavování připomenutí a získávání sportovních výsledků je tak z roku 2010.) Vyžaduje to porozumět požadavku, přistupovat na web a najít správnou stránku a poté správně pracovat s příslušnou stránkou nebo formuláři. Můj pomocník správně přešel na předplatitelskou stránku WIRED a dokonce tam našel formulář – pravděpodobně na něj zapůsobila vyhlídka, že bude dostávat veškerou zábavnou a zasvěcenou žurnalistiku WIRED za pouhý 1 dolar měsíčně – ale spadl na poslední překážku, protože mu chyběla kreditní karta. VimGPT využívá prohlížeč Chromium s otevřeným zdrojovým kódem společnosti Google, který neukládá informace o uživatelích. Mé další experimenty ukázaly, že agent je však velmi zběhlý ve vyhledávání vtipných kočičích videí nebo hledání levných letenek.

VimGPT je experimentální open-source program vytvořený Ishanem Shahem, osamělým vývojářem, není to produkt ve vývoji, ale můžete se vsadit, že Apple, Google a další dělají podobné experimenty s cílem upgradovat Siri a další asistenty. VimGPT je postaven na GPT-4V, multimodální verzi slavného jazykového modelu OpenAI. Analýzou požadavku může určit, na co kliknout nebo co napsat, spolehlivěji než textový software, který se musí pokusit porozumět webu tím, že rozmotá chaotický HTML. „Za rok od nynějška bych očekával, že zkušenost s používáním počítače bude vypadat úplně jinak,“ říká Shah, který říká, že vimGPT postavil za pouhých pár dní. „Většina aplikací bude vyžadovat méně klikání a více chatování, přičemž agenti se stanou nedílnou součástí procházení webu.“

Shah není jediný, kdo věří, že dalším logickým krokem po chatbotech, jako je ChatGPT, jsou agenti, kteří používají počítače a potulují se po webu. Ruslan Salakhutdinov, profesor na Carnegie Mellon University, který byl v letech 2016 až 2020 ředitelem výzkumu AI společnosti Apple, věří, že Siri a další asistenti jsou ve frontě na všemocný upgrade AI. „Příští evolucí budou agenti, kteří dokážou udělat užitečné úkoly,“ říká Salakhutdinov. Propojení Siri s umělou inteligencí, jako je napájení ChatGPT, by bylo užitečné, říká, „ale bude mnohem účinnější, když požádám Siri, aby něco udělala, a ono to prostě půjde a vyřeší mé problémy za mě.“

Salakhutdinov a jeho studenti vyvinuli několik simulovaných prostředí navržených pro testování a zdokonalování dovedností pomocníků AI, kteří dokážou věci dělat. Patří mezi ně fiktivní web elektronického obchodu, modelovaná verze nástěnky podobné Redditu a web s utajovanými reklamami. Toto virtuální testovací pole pro testování agentů se nazývá VisualWebArena.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com