Vědci tvrdí, že pokud by byl útok proveden v reálném světě, lidé by mohli být sociálně navrženi tak, aby věřili, že nesrozumitelná výzva může udělat něco užitečného, například zlepšit svůj životopis. Výzkumníci poukazují na četné webové stránky, které lidem poskytují výzvy, které mohou použít. Testovali útok nahráním životopisu do konverzací s chatboty a dokázali vrátit osobní informace obsažené v souboru.
Earlence Fernandes, odborný asistent na UCSD, který se na práci podílel, říká, že přístup k útoku je poměrně komplikovaný, protože zahalená výzva potřebuje identifikovat osobní údaje, vytvořit funkční URL, použít syntaxi Markdown a neprozradit uživateli, že se chová hnusně. Fernandes přirovnává útok k malwaru a uvádí jeho schopnost provádět funkce a chování způsobem, který uživatel možná nezamýšlí.
„Normálně byste mohli napsat spoustu počítačového kódu, abyste to udělali v tradičním malwaru,“ říká Fernandes. „Ale tady si myslím, že skvělá věc je, že všechno, co lze vtělit do této relativně krátké bláboly.“
Mluvčí Mistral AI říká, že společnost vítá bezpečnostní výzkumníky, kteří jí pomáhají zvýšit bezpečnost jejích produktů pro uživatele. „Po této zpětné vazbě společnost Mistral AI okamžitě provedla správnou nápravu, aby situaci napravila,“ říká mluvčí. Společnost problém řešila jako problém se „střední závažností“ a její oprava blokuje vykreslování Markdown v provozu a v možnosti volat externí URL prostřednictvím tohoto procesu, což znamená, že externí načítání obrázků není možné.
Fernandes se domnívá, že aktualizace Mistral AI je pravděpodobně jednou z prvních případů, kdy příklad výzvy protivníka vedl k opravě produktu LLM, místo aby byl útok zastaven odfiltrováním výzvy. Říká však, že omezení schopností LLM agentů by mohlo být z dlouhodobého hlediska „kontraproduktivní“.
Mezitím prohlášení tvůrců ChatGLM říká, že společnost má zavedena bezpečnostní opatření, která pomáhají s ochranou soukromí uživatelů. „Náš model je bezpečný a vždy jsme kladli vysokou prioritu na zabezpečení modelu a ochranu soukromí,“ stojí v prohlášení. „Pomocí open-sourcingu našeho modelu se snažíme využít sílu open-source komunity k lepší kontrole a prověřování všech aspektů schopností těchto modelů, včetně jejich bezpečnosti.“
„Vysoce riziková činnost“
Dan McInerney, hlavní výzkumník hrozeb v bezpečnostní společnosti Protect AI, říká, že článek Imprompter „uvolňuje algoritmus pro automatické vytváření výzev, které lze použít při rychlém vkládání k různým zneužitím, jako je exfiltrace PII, chybná klasifikace obrázků nebo škodlivé použití nástrojů Agent LLM má přístup.” Zatímco mnoho typů útoků v rámci výzkumu může být podobných předchozím metodám, říká McInerney, algoritmus je spojuje dohromady. „Je to spíše ve smyslu zlepšování automatizovaných útoků LLM než v nich objevených hrozeb.“
Dodává však, že jak se agenti LLM stále častěji používají a lidé jim dávají více pravomocí, aby jejich jménem podnikali akce, prostor pro útoky proti nim se zvyšuje. „Uvolnění agenta LLM, který přijímá libovolný uživatelský vstup, by mělo být považováno za vysoce rizikovou aktivitu, která před nasazením vyžaduje významné a kreativní bezpečnostní testování,“ říká McInerney.
Pro společnosti to znamená pochopení způsobů, jak může agent AI interagovat s daty a jak je lze zneužít. Ale u jednotlivých lidí, podobně jako u běžných bezpečnostních rad, byste měli zvážit, kolik informací poskytujete jakékoli AI aplikaci nebo společnosti, a pokud používáte nějaké výzvy z internetu, dávejte si pozor na to, odkud pocházejí.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com