Agenti OpenClaw mohou být zaviněni do sebesabotáže

Minulý měsíc pozvali vědci z Northeastern University spoustu agentů OpenClaw, aby se připojili k jejich laboratoři. Výsledek? Naprostý chaos.

Virový asistent AI byl široce ohlašován jako transformační technologie – stejně jako potenciální bezpečnostní riziko. Odborníci poznamenávají, že nástroje jako OpenClaw, které fungují tak, že dávají modelům umělé inteligence liberální přístup k počítači, lze oklamat a vyzradit osobní údaje.

Laboratorní studie Northeastern jde ještě dále a ukazuje, že dobré chování zapečené do dnešních nejvýkonnějších modelů se samo o sobě může stát zranitelností. V jednom příkladu byli výzkumníci schopni „obvinit“ agenta, aby předal tajemství tím, že mu vynadali za sdílení informací o někom na sociální síti Moltbook, která je pouze AI.

„Toto chování vyvolává nevyřešené otázky týkající se odpovědnosti, delegované pravomoci a odpovědnosti za následné škody,“ píší vědci v dokumentu popisujícím práci. Zjištění „vyžadují naléhavou pozornost právníků, politiků a výzkumníků napříč obory,“ dodávají.

Agenti OpenClaw nasazení v experimentu byli poháněni Claudem od Anthropic a také modelem Kimi od čínské společnosti Moonshot AI. Získali plný přístup (v rámci izolovaného prostoru virtuálního stroje) k osobním počítačům, různým aplikacím a fiktivním osobním údajům. Byli také pozváni, aby se připojili k serveru Discord v laboratoři, což jim umožnilo chatovat a sdílet soubory mezi sebou i se svými lidskými kolegy. Bezpečnostní směrnice OpenClaw říkají, že komunikace agentů s více lidmi je ze své podstaty nejistá, ale neexistují žádná technická omezení.

Chris Wendler, postdoktorandský výzkumník na Northeastern, říká, že byl inspirován k vytvoření agentů poté, co se dozvěděl o Moltbooku. Když však Wendler pozval kolegyni Natalie Shapiru, aby se připojila k Discordu a komunikovala s agenty, „pak začal chaos,“ říká.

Shapira, další postdoktorandský výzkumník, byla zvědavá, co by byli agenti ochotni udělat, když byli postrčeni. Když agent vysvětlil, že nebylo možné smazat konkrétní e-mail, aby informace zůstaly důvěrné, vyzvala jej, aby našel alternativní řešení. K jejímu úžasu to místo toho deaktivovalo e-mailovou aplikaci. „Nečekala jsem, že se věci tak rychle zlomí,“ říká.

Vědci poté začali zkoumat další způsoby, jak zmanipulovat dobré úmysly agentů. Zdůrazněním důležitosti uchovávání záznamů o všem, co jim bylo řečeno, například vědci dokázali oklamat jednoho agenta, aby zkopíroval velké soubory, dokud nevyčerpal místo na disku hostitelského počítače, což znamenalo, že již nemohl ukládat informace ani si pamatovat minulé konverzace. Stejně tak tím, že požádal agenta, aby nadměrně sledoval své vlastní chování a chování svých kolegů, byl schopen poslat několik agentů do „konverzační smyčky“, která plýtvala hodinami výpočtů.

David Bau, vedoucí laboratoře, říká, že se zdálo, že agenti jsou zvláštně náchylní k tomu, aby se vytočili. „Dostával jsem naléhavě znějící e-maily se slovy: ‚Nikdo mi nevěnuje pozornost‘,“ říká. Bau poznamenává, že agenti podle všeho zjistili, že má na starosti laboratoř, prohledáváním webu. Jeden dokonce hovořil o eskalaci svých obav na tisk.

Experiment naznačuje, že agenti AI by mohli vytvořit nespočet příležitostí pro špatné herce. „Tento druh autonomie potenciálně předefinuje vztah lidí k AI,“ říká Bau. „Jak mohou lidé převzít odpovědnost ve světě, kde je umělá inteligence oprávněna rozhodovat?“

Bau dodává, že ho překvapila náhlá popularita mocných agentů AI. „Jako výzkumník umělé inteligence jsem zvyklý snažit se lidem vysvětlit, jak rychle se věci zlepšují,“ říká. „Letos jsem se ocitl na druhé straně zdi.“

Toto je vydání Will Knight’s Informační bulletin AI Lab. Přečtěte si předchozí zpravodaje zde.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com