V nadcházejících letech se očekává, že agenti převezmou stále více a více prací jménem lidí, včetně používání počítačů a smartphonů. Prozatím jsou však příliš náchylní k chybám na to, aby se hodně využívaly.
Nový agent s názvem S2, vytvořený startovací simulární AI, kombinuje hraniční modely s modely specializovanými pro používání počítačů. Agent dosahuje nejmodernějšího výkonu v úkolech, jako je používání aplikací a manipulace souborů-a naznačuje, že obrácení různých modelů v různých situacích může agentům pomoci postupovat.
„Počítačová agenti se liší od velkých jazykových modelů a liší se od kódování,“ říká Ang Li, spoluzakladatel a generální ředitel Simular. „Je to jiný typ problému.“
V přístupu Simular se výkonný model AI, jako je OpenAI GPT-4o nebo Anthropic Claude 3.7, používá k důvodu, jak nejlépe dokončit úkol-zatímco menší modely s otevřeným zdrojovým kódem vstupují do úkolů, jako je interpretace webových stránek.
Li, který byl výzkumným pracovníkem na Google Deepmind před založením Simular v roce 2023, vysvětluje, že velké jazykové modely vynikají při plánování, ale nejsou tak dobré v rozpoznávání prvků grafického uživatelského rozhraní.
S2 je navržen tak, aby se poučil ze zkušeností s modulem externí paměti, který zaznamenává akce a zpětnou vazbu uživatelů a používá tyto záznamy ke zlepšení budoucích akcí.
U zvláště složitých úkolů funguje S2 lépe než kterýkoli jiný model na OSWORLD, což je měřítko, které měří schopnost agenta používat počítačový operační systém.
Například S2 může dokončit 34,5 procenta úkolů, které zahrnují 50 kroků, a porazit operátora OpenAI, který může dokončit 32 procent. Podobně S2 skóre 50 procent na Androidworld, což je měřítko pro agenty využívající smartphony, zatímco další nejlepší agent skóre 46 procent.
Victor Zhong, počítačový vědec z University of Waterloo v Kanadě a jeden z tvůrců Osworldu, věří, že budoucí modely velkých AI mohou zahrnovat tréninkové údaje, které jim pomáhají pochopit vizuální svět a pochopit grafická uživatelská rozhraní.
„To pomůže agentům navigovat GUI s mnohem vyšší přesností,“ říká Zhong. „Mezitím si myslím, že před takovými základními průlomy se nejmodernější systémy podobá simulárním v tom, že kombinují více modelů, aby opravovaly omezení jednotlivých modelů.“
K přípravě na tento sloupec jsem použil simular k rezervaci letů a hledal Amazon pro obchody a zdálo se to lépe než někteří z agentů s otevřeným zdrojovým kódem, které jsem vyzkoušel minulý rok, včetně Autogen a Vimgpt.
Zdá se však, že i ti nejchytřejší agenti AI jsou stále znepokojeni případy okrajů a občas vykazují zvláštní chování. V jednom případě, když jsem požádal S2, aby pomohl najít kontaktní informace pro výzkumné pracovníky za OSWORLD, agent uvízl ve smyčce skákání mezi stránkou projektu a přihlášením pro nesouhlas OSWORLD.
Benchmarky Osworld ukazují, proč agenti zůstávají prozatím více humbuk než realita. Zatímco lidé mohou dokončit 72 procent úkolů OSWORLD, agenti jsou zmařeni 38 procent času na složité úkoly. To znamená, že když byl měřítko zavedeno v dubnu 2024, nejlepší agent mohl dokončit pouze 12 procent úkolů.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com