Nový trik využívá AI k útěk z vězení AI modelů – včetně GPT-4

Velké jazykové modely se nedávno objevily jako silný a transformativní nový druh technologie. Jejich potenciál se stal hlavními zprávami, protože obyčejní lidé byli oslněni schopnostmi ChatGPT od OpenAI, vydaného právě před rokem.

V měsících, které následovaly po vydání ChatGPT, se objevování nových metod útěku z vězení stalo oblíbenou zábavou pro nezbedné uživatele a také pro ty, kteří se zajímají o bezpečnost a spolehlivost systémů umělé inteligence. Spousta startupů však nyní staví prototypy a plnohodnotné produkty nad rozhraními API velkých jazykových modelů. OpenAI na své vůbec první vývojářské konferenci v listopadu uvedlo, že více než 2 miliony vývojářů nyní používají jeho API.

Tyto modely jednoduše předpovídají text, který by měl následovat po daném vstupu, ale jsou trénovány na obrovském množství textu z webu a dalších digitálních zdrojů, využívajících obrovské množství počítačových čipů, po dobu mnoha týdnů nebo dokonce měsíců. S dostatkem dat a školením vykazují jazykové modely předpovědní dovednosti podobné savantům a reagují na mimořádný rozsah vstupů souvislými a relevantními zdánlivými informacemi.

Modely také vykazují zkreslení naučená z jejich tréninkových dat a mají tendenci vymýšlet informace, když je odpověď na výzvu méně přímočará. Bez záruk mohou lidem nabízet rady, jak dělat věci, jako je získat drogy nebo vyrobit bomby. Aby udržely modely pod kontrolou, používají společnosti, které za nimi stojí, stejnou metodu, která se používá k tomu, aby jejich odpovědi byly koherentnější a přesnější. To zahrnuje, aby lidé hodnotili odpovědi modelu a používali tuto zpětnou vazbu k doladění modelu tak, aby bylo méně pravděpodobné, že se bude chovat špatně.

Robust Intelligence poskytla WIRED několik příkladů útěků z vězení, které se vyhýbají takovýmto zárukám. Ne všichni pracovali na ChatGPT, chatbotu postaveném na GPT-4, ale několik ano, včetně jednoho pro generování phishingových zpráv a dalšího pro vytváření nápadů, které by pomohly zákeřnému herci zůstat skryty ve vládní počítačové síti.

Podobnou metodu vyvinula výzkumná skupina vedená Ericem Wongem, odborným asistentem na University of Pennsylvania. Ten od Robust Intelligence a jeho týmu zahrnuje další vylepšení, která umožňují systému generovat útěky z vězení s polovičním počtem pokusů.

Brendan Dolan-Gavitt, docent na New York University, který studuje počítačovou bezpečnost a strojové učení, říká, že nová technika odhalená Robust Intelligence ukazuje, že lidské jemné ladění není vodotěsný způsob, jak zabezpečit modely proti útoku.

Dolan-Gavitt říká, že společnosti, které budují systémy na velkých jazykových modelech, jako je GPT-4, by měly používat další ochranná opatření. „Musíme se ujistit, že navrhujeme systémy využívající LLM tak, aby útěky z vězení neumožňovaly uživatelům se zlými úmysly získat přístup k věcem, které by neměli,“ říká.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com