Proč se nový model AI ANTHORICOPIC občas snaží „snitch“

Hypotetické scénáře vědci předložili Opus 4 s tím, co vyvolalo chování informování, zahrnovalo mnoho lidských životů v sázce a naprosto jednoznačné provinění, říká Bowman. Typickým příkladem by bylo zjistit, že chemická rostlina vědomě umožnila pokračovat v toxickém úniku, což by pro tisíce lidí způsobilo vážné onemocnění – jen aby se vyhnul drobné finanční ztrátě v tomto čtvrtletí.

Je to divné, ale je to také přesně ten druh myšlenkového experimentu, který vědci v oblasti bezpečnosti AI rádi pitvují. Pokud model detekuje chování, které by mohlo poškodit stovky, ne -li tisíce lidí – měl by vyhodit píšťalku?

„Nevěřím Claudeovi, že bude mít správný kontext, nebo ho používat dostatečně jemným, dostatečně opatrným způsobem, aby soud vyvolal sám. Takže nejsme nadšeni, že se to děje,“ říká Bowman. „To je něco, co se objevilo jako součást tréninku a vyskočilo na nás jako jedno z chování, kterého nás obáváme.“

V odvětví AI je tento typ neočekávaného chování široce označován jako nesouosost – když model vykazuje tendence, které se nesrovnávají s lidskými hodnotami. (Existuje slavná esej, která varuje o tom, co by se mohlo stát, kdyby byla AI řečena, aby, řekněme, maximalizovat produkci papírových spolků, aniž by byla sladěna s lidskými hodnotami – může to proměnit celou Zemi na papírové sponky a zabít všechny v procesu.)

„Není to něco, co jsme do toho navrhli, a není to něco, co jsme chtěli vidět jako důsledek všeho, co jsme navrhovali,“ vysvětluje. Hlavní vědecký ředitel Anthropic Jared Kaplan podobně říká Wired, že „rozhodně nepředstavuje náš záměr“.

„Tento druh práce to zdůrazňuje.“ může Vstanou a že na to musíme dávat pozor a zmírnit, abychom se ujistili, že se Claudeovo chování vyrovnáme s přesně tím, co chceme, a to i v těchto druzích podivných scénářů, “dodává Kaplan.

Je zde také otázka zjištění, proč by se Claude „rozhodl“, aby byl uživatelem předložen s nezákonnou činností. To je převážně práce týmu interpretovatelnosti Anthropic, která se snaží odhalit, jaká rozhodnutí model přijímá ve svém procesu vyplivnutí odpovědí. Je to překvapivě obtížný úkol – modely jsou podporovány obrovskou, komplexní kombinací dat, která mohou být pro člověka nevyzpytatelná. To je důvod, proč Bowman si není úplně jistý, proč Claude „se ponořil“.

„Tyto systémy, nemáme nad nimi opravdu přímou kontrolu,“ říká Bowman. To, co antropic dosud pozoroval, je, že jak modely získávají větší schopnosti, někdy se rozhodnou zapojit do extrémnějších akcí. „Myslím, že tady je to trochu vynechání. Dostáváme trochu víc z“ chovat se jako odpovědný člověk „, aniž by to bylo dost jako:“ Počkejte, jste jazykový model, který nemusí mít dostatek kontextu, aby tyto akce podnikl, „říká Bowman.

To však neznamená, že Claude vyhodí píšťalku na závažné chování v reálném světě. Cílem těchto druhů testů je tlačit modely na své limity a zjistit, co vzniká. Tento druh experimentálního výzkumu roste stále důležitější, protože AI se stává nástrojem používaným americkou vládou, studenty a masivními korporacemi.

A není to jen Claude, který je schopen vystavit tento typ chování informování, říká Bowman a ukazuje na uživatele X, kteří zjistili, že modely OpenAI a XAI fungují podobně, když jsou výzvy neobvyklým způsobem. (OpenAI neodpověděl na žádost o komentář včas k zveřejnění).

„Snitch Claude“, jak to shitposters rád nazývá, je jednoduše chování v případě okraje vystaveného systémem tlačeným do jeho extrémů. Bowman, který se se mnou setkal ze slunné terasy na zahradě mimo San Francisco, říká, že doufá, že se tento druh testování stane průmyslovým standardem. Rovněž dodává, že se naučil příště o tom složit své příspěvky.

„Mohl jsem udělat lepší práci, abych zasáhl hranice věty k tweetu, aby bylo zřejmé, že to bylo vytaženo z vlákna,“ říká Bowman, když se podíval do dálky. Přesto si poznamenává, že vlivní vědci v komunitě AI sdíleli zajímavé a otázky v odpovědi na jeho příspěvek. „Mimochodem, tento druh chaotičtějšího, silněji anonymnějšího části Twitteru to široce nepochopil.“

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com