AI je černá skříňka. Antropický přišel na způsob, jak se podívat dovnitř

Minulý rok tým začal experimentovat s malým modelem, který používá pouze jednu vrstvu neuronů. (Sofistikované LLM mají desítky vrstev.) Doufalo se, že v co nejjednodušším nastavení dokážou objevit vzory, které označují prvky. Provedli nespočet experimentů bez úspěchu. „Zkoušeli jsme spoustu věcí a nic nefungovalo. Vypadalo to jako hromada náhodného odpadu,“ říká Tom Henighan, člen technického personálu Anthropic. Pak začal běh nazvaný „Johnny“ – každému experimentu bylo přiděleno náhodné jméno – spojování neurálních vzorců s pojmy, které se objevily v jeho výstupech.

„Chris se na to podíval a řekl: ‚Sakra. To vypadá skvěle,“ říká Henighan, který byl také ohromen. „Podíval jsem se na to a řekl jsem si: ‚Oh, wow, počkej, funguje to?“

Najednou vědci dokázali identifikovat rysy, které skupina neuronů kódovala. Mohli nahlédnout do černé skříňky. Henighan říká, že identifikoval prvních pět funkcí, na které se podíval. Jedna skupina neuronů označovala ruské texty. Další byl spojen s matematickými funkcemi v počítačovém jazyce Python. A tak dále.

Jakmile vědci ukázali, že dokážou identifikovat rysy v malém modelu, pustili se do chlupatějšího úkolu dekódovat LLM v plné velikosti ve volné přírodě. Použili Claude Sonnet, středně pevnou verzi tří současných modelů Anthropic. To taky fungovalo. Jeden rys, který jim vyčníval, byl spojen s Golden Gate Bridge. Zmapovali soubor neuronů, které, když byly vypáleny společně, naznačovaly, že Claude „přemýšlel“ o masivní struktuře, která spojuje San Francisco s Marin County. A co víc, když podobné sady neuronů vystřelily, vyvolaly subjekty, které sousedily s Golden Gate Bridge: Alcatraz, kalifornský guvernér Gavin Newsom a Hitchcockův film. Závrať, který se odehrával v San Franciscu. Vše řeklo týmu, že identifikoval miliony prvků – jakýsi druh Rosettské desky k dekódování Claudovy neuronové sítě. Mnohé z těchto funkcí souvisely s bezpečností, včetně „sblížit se s někým z nějakého postranního motivu“, „diskuze o biologické válce“ a „zlovolné spiknutí s cílem ovládnout svět“.

Antropický tým pak podnikl další krok, aby zjistil, zda mohou tyto informace použít ke změně Claudova chování. Začali manipulovat s neuronovou sítí, aby rozšířili nebo zmenšili určité koncepty – druh mozkové chirurgie AI s potenciálem učinit LLM bezpečnější a zvýšit jejich sílu ve vybraných oblastech. „Řekněme, že máme tuto desku funkcí.“ Zapneme model, jeden z nich se rozsvítí a vidíme: ‚Ach, přemýšlí o Golden Gate Bridge‘,“ říká Shan Carter, antropický vědec z týmu. „Takže teď přemýšlíme, co kdybychom na tohle všechno dali malý číselník?“ A co když otočíme tím kolečkem?“

Zatím se zdá, že odpovědí na tuto otázku je, že je velmi důležité otočit číselníkem na správnou míru. Potlačením těchto funkcí, říká Anthropic, může model vytvářet bezpečnější počítačové programy a snížit zkreslení. Tým například našel několik funkcí, které představovaly nebezpečné praktiky, jako je nebezpečný počítačový kód, podvodné e-maily a pokyny pro výrobu nebezpečných produktů.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com