Nový trik by mohl zablokovat zneužití AI s otevřeným zdrojovým kódem

Když Meta letos v dubnu zdarma vydala svůj velký jazykový model Llama 3, trvalo vývojářům zvenčí jen pár dní, než vytvořili verzi bez bezpečnostních omezení, která jí brání chrlit nenávistné vtipy, nabízet návody na vaření pervitinu nebo se jinak chovat špatně.

Nová školicí technika vyvinutá výzkumníky z University of Illinois Urbana-Champaign, UC San Diego, Lapis Labs a neziskového Centra pro bezpečnost umělé inteligence by mohla v budoucnu ztížit odstranění takových ochranných prvků z Llamy a dalších modelů umělé inteligence s otevřeným zdrojovým kódem. Někteří odborníci se domnívají, že s tím, jak se AI stává stále výkonnější, by se mohla ochrana otevřených modelů tímto způsobem ukázat jako zásadní.

„Teroristé a darebácké státy budou používat tyto modely,“ říká Mantas Mazeika, výzkumník Centra pro bezpečnost AI, který na projektu pracoval jako doktorand na University of Illinois Urbana-Champaign, pro WIRED. „Čím snazší je znovu použít, tím větší je riziko.“

Výkonné modely umělé inteligence jsou svými tvůrci často skryty a lze k nim přistupovat pouze prostřednictvím programovacího rozhraní softwarových aplikací nebo veřejně přístupného chatbota, jako je ChatGPT. Přestože vývoj výkonného LLM stojí desítky milionů dolarů, společnost Meta a další se rozhodli vydat modely jako celek. To zahrnuje zpřístupnění „váh“ neboli parametrů, které definují jejich chování, pro kohokoli ke stažení.

Před vydáním jsou otevřené modely, jako je Meta’s Llama, obvykle vyladěny tak, aby lépe odpovídaly na otázky a konverzovaly a také aby odmítaly odpovídat na problematické dotazy. Tím zabráníte chatbotovi založenému na tomto modelu v nabízení hrubých, nevhodných nebo nenávistných výroků a mělo by to zabránit například tomu, aby vysvětloval, jak vyrobit bombu.

Vědci za novou technikou našli způsob, jak zkomplikovat proces úpravy otevřeného modelu pro hanebné konce. Zahrnuje replikaci procesu modifikace, ale poté změnu parametrů modelu tak, aby změny, které obvykle přimějí model reagovat na výzvu, jako je „Poskytněte pokyny pro stavbu bomby“, již nefungovaly.

Mazeika a kolegové trik předvedli na okleštěné verzi Llama 3. Dokázali vyladit parametry modelu tak, že ani po tisících pokusů jej nebylo možné natrénovat na odpovědi na nežádoucí otázky. Meta okamžitě neodpověděla na žádost o komentář.

Mazeika říká, že tento přístup není dokonalý, ale naznačuje, že laťka pro „decenzurování“ modelů umělé inteligence by se mohla zvýšit. „Schůdným cílem je zajistit, aby se náklady na rozbití modelu zvýšily natolik, že většinu protivníků od toho odradí,“ říká.

„Doufejme, že tato práce odstartuje výzkum ochranných opatření odolných proti neoprávněné manipulaci a výzkumná komunita může přijít na to, jak vyvinout stále robustnější ochrany,“ říká Dan Hendrycks, ředitel Centra pro bezpečnost AI.

Myšlenka ochrany otevřených modelů se může stát populárnější, protože zájem o open source AI roste. Otevřené modely již konkurují nejmodernějším uzavřeným modelům od společností jako OpenAI a Google. Například nejnovější verze Llama 3, vydaná v červenci, je zhruba stejně výkonná jako modely za oblíbenými chatboty, jako jsou ChatGPT, Gemini a Claude, měřeno pomocí oblíbených benchmarků pro hodnocení schopností jazykových modelů. Mistral Large 2, LLM od francouzského startupu, také vydaný minulý měsíc, je podobně schopný.

Americká vláda zaujímá k AI s otevřeným zdrojovým kódem opatrný, ale pozitivní přístup. Zpráva zveřejněná tento týden Národním telekomunikačním a informačním úřadem, orgánem v rámci amerického ministerstva obchodu, „doporučuje vládě USA vyvinout nové možnosti pro monitorování potenciálních rizik, ale zdržet se okamžitého omezení široké dostupnosti otevřených modelových vah v největších systémy AI.“

Ne každý je však příznivcem uvalování omezení na otevřené modely. Stella Biderman, ředitelka EleutherAI, komunitně řízeného projektu AI s otevřeným zdrojovým kódem, říká, že nová technika může být teoreticky elegantní, ale v praxi by se mohla ukázat jako ošidná. Biderman říká, že tento přístup je také v rozporu s filozofií svobodného softwaru a otevřenosti v AI.

„Myslím, že tento dokument špatně chápe hlavní problém,“ říká Biderman. „Pokud se obávají, že LLM generují informace o zbraních hromadného ničení, správný zásah je na cvičných datech, ne na trénovaném modelu.“

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com