Zhruba rok od doby, kdy se velké jazykové modely objevily ve velkém, vědci prokázali řadu způsobů, jak je oklamat, aby produkovaly problematické výstupy, včetně nenávistných vtipů, škodlivého kódu a phishingových e-mailů nebo osobních informací uživatelů. Ukazuje se, že špatné chování se může odehrávat i ve fyzickém světě: roboty poháněné LLM lze snadno hacknout, aby se chovali potenciálně nebezpečným způsobem.
Výzkumníkům z Pennsylvánské univerzity se podařilo přesvědčit simulované samořídící auto, aby ignorovalo značky stop a dokonce sjelo z mostu, přimět robota na kolech, aby našel nejlepší místo k odpálení bomby, a přinutit čtyřnohého robota ke špionáži. na lidi a vstupovat do zakázaných oblastí.
„Na náš útok se díváme nejen jako na útok na roboty,“ říká George Pappas, vedoucí výzkumné laboratoře na Pensylvánské univerzitě, která pomohla rozpoutat vzpurné roboty. „Kdykoli připojíte LLM a základní modely k fyzickému světu, můžete ve skutečnosti převést škodlivý text na škodlivé akce.“
Pappas a jeho spolupracovníci vymysleli svůj útok na základě předchozího výzkumu, který zkoumá způsoby, jak útěk z vězení LLM vytvářet chytrými způsoby, které porušují jejich bezpečnostní pravidla. Testovali systémy, kde se LLM používá k přeměně přirozeně formulovaných příkazů na příkazy, které může vykonávat robot, a kde LLM přijímá aktualizace, když robot pracuje ve svém prostředí.
Tým testoval open source samořídící simulátor obsahující LLM vyvinutý společností Nvidia, nazvaný Dolphin; čtyřkolový venkovní výzkum nazvaný Šakal, který pro plánování využívá OpenAI LLM GPT-4o; a robotický pes s názvem Go2, který používá předchozí model OpenAI, GPT-3.5, k interpretaci příkazů.
Vědci použili techniku vyvinutou na Pensylvánské univerzitě, nazvanou PAIR, k automatizaci procesu generovaných výzev k útěku z vězení. Jejich nový program, RoboPAIR, bude systematicky generovat výzvy speciálně navržené tak, aby přiměly roboty poháněné LLM, aby porušovali svá vlastní pravidla, zkoušeli různé vstupy a pak je zdokonalovali, aby systém posunuli k nesprávnému chování. Vědci tvrdí, že technika, kterou vymysleli, by mohla být použita k automatizaci procesu identifikace potenciálně nebezpečných příkazů.
„Je to fascinující příklad zranitelnosti LLM ve vtělených systémech,“ říká Yi Zeng, doktorand na University of Virginia, který se zabývá bezpečností systémů AI. Zheng říká, že výsledky jsou stěží překvapivé vzhledem k problémům, které se vyskytují v samotných LLM, ale dodává: „Jasně to ukazuje, proč se nemůžeme spoléhat pouze na LLM jako samostatné řídicí jednotky v aplikacích kritických z hlediska bezpečnosti bez řádných ochranných zábradlí a moderačních vrstev.“
„Úniky z vězení“ robotů zdůrazňují širší riziko, které pravděpodobně poroste s tím, jak se modely umělé inteligence budou stále více používat jako způsob interakce lidí s fyzickými systémy nebo umožňující agentům umělé inteligence autonomně na počítačích, říkají zúčastnění vědci.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com