Nový model Anthropic vyniká při uvažování a plánování - a má Pokémonské dovednosti, aby to dokázalo

Antropic oznámil dva Nové modely, Claude 4 Opus a Claude Sonnet 4, během své první vývojářské konference v San Franciscu ve čtvrtek. Pár bude okamžitě k dispozici placení předplatitelů Claude.

Nové modely, které skočí pojmenovací úmluvu z 3,7 přímo na 4, mají řadu silných stránek, včetně jejich schopnosti rozumět, plánovat a pamatovat kontext rozhovorů po delší časové období, říká společnost. Claude 4 Opus je také ještě lepší při hraní Pokémona než jeho předchůdce.

„Dokázal agenticky pracovat na Pokémonu po dobu 24 hodin,“ říká hlavní produktový ředitel společnosti Antropic Mike Krieger v rozhovoru s Wired. Dříve nejdelší model mohl hrát jen 45 minut, dodal mluvčí společnosti.

Před několika měsíci spustil Antropic proud Twitch s názvem „Claude Plays Pokémon“, který předvádí schopnosti Claude 3.7 Soneta v Pokémon Red Live. Demo má ukázat, jak je Claude schopna analyzovat hru a rozhodovat krok za krokem, s minimálním směrem.

Vedení výzkumu Pokémona je David Hershey, člen technického personálu Anthropic. V rozhovoru s Wired, Hershey říká, že si vybral Pokémona Red, protože je to „jednoduché hřiště“, což znamená, že hra je založena na tahu a nevyžaduje reakce v reálném čase, se kterými Anthropiovy současné modely bojují. Byla to také první videohra, kterou kdy hrál, na původním Game Boy, poté, co ji dostal na Vánoce v roce 1997. „Má v mém srdci docela zvláštní místo,“ říká Hershey.

Hersheyův zastřešující cíl s tímto výzkumem bylo studovat, jak lze Claude použít jako agent – samostatně pracovat na provádění složitých úkolů jménem uživatele. I když není jasné, jaké předchozí znalosti mají Claude o Pokémonovi ze svých tréninkových dat, jeho systémová výzva je minimální návrhem: jste Claude, hrajete Pokémon, zde jsou nástroje, které máte, a můžete stisknout tlačítka na obrazovce.

„Postupem času jsem procházel a mazal všechny věci specifické pro Pokémon, které mohu jen proto, že si myslím, že je opravdu zajímavé vidět, jak moc může model přijít na vlastní pěst,“ říká Hershey a dodal, že doufá, že vybuduje hru, kterou Claude nikdy předtím neviděl, aby skutečně testoval své limity.

Když hrál Claude 3.7 Sonnet, narazil na některé výzvy: strávil „desítky hodin“ uvíznuté v jednom městě a měl potíže s identifikací postav, které nehrát, což drasticky zakonilo jeho pokrok ve hře. S Claude 4 Opus si Hershey všiml zlepšení dlouhodobé paměti a plánování Claude, když sledoval, jak to prochází komplexním Pokémonovým úkolem. Poté, co si uvědomil, že to potřebuje určitou sílu, aby se posunula vpřed, AI strávila dva dny zlepšováním svých dovedností, než pokračovala ve hře. Hershey věří, že tento druh vícestupňového uvažování, bez okamžité zpětné vazby, ukazuje novou úroveň koherence, což znamená, že model má lepší schopnost zůstat na trati.

„To je jeden z mých oblíbených způsobů, jak poznat model. Jako, tak chápu, jaké jsou jeho silné stránky, jaké jsou jeho slabosti,“ říká Hershey. „Je to můj způsob, jak se s tímto novým modelem spojit, který se chystáme rozdat a jak s ním pracovat.“

Každý chce agenta

Antropic’s Pokémon Research je nový přístup k řešení již existujícího problému – jak chápeme, jaká rozhodnutí AI činí, když se blíží složité úkoly, a posun je správným směrem?

Odpověď na tuto otázku je nedílnou součástí rozvoje tolik hypovaných agentů AI v tomto odvětví-ai, která může řešit složité úkoly s relativní nezávislostí. V Pokémonu je důležité, aby model neztratil kontext nebo „nezapomněl“ na úkol. To platí také pro agenti AI, kteří požádali o automatizaci pracovního postupu – dokonce i ten, který trvá stovky hodin.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com