Halucinace AI kódu zvyšují riziko útoků „zmatku balíčku“

Počítačový kód generovaný AI je rozlišený s odkazy na neexistující knihovny třetích stran a vytváří jedinečnou příležitost pro útoky na dodavatelský řetězec, které jedlem legitimních programů se škodlivými balíčky, které mohou ukrást data, zasadit zadní dveře a provádět další nebezpečné akce, nově publikované výzkumné ukazuje.

Studie, která použila 16 nejčastěji používaných velkých jazykových modelů k generování 576 000 vzorků kódu, zjistila, že 440 000 závislostí na balíčku bylo „halucinováno“, což znamená, že neexistovaly. Modely s otevřeným zdrojovým kódem nejvíce halucinovaly a 21 procent závislostí spojených s neexistujícími knihovnami. Závislost je základní kódová součást, kterou vyžaduje samostatný kus kódu, aby správně fungoval. Závislost šetří vývojářům potíže s přepisovacím kódem a jsou nezbytnou součástí moderního dodavatelského řetězce softwaru.

Balíček halucinační flashbacky

Tyto neexistující závislosti představují hrozbu pro dodavatelský řetězec softwaru tím, že zhoršují tzv. Závislost závislých útoků. Tyto útoky fungují tím, že způsobí, že softwarový balíček pro přístup ke nesprávné závislosti na komponentech, například zveřejněním škodlivého balíčku a poskytnutím stejného názvu jako legitimní, ale s pozdějším razítkem verze. Software, který závisí na balíčku, si v některých případech vybere spíše škodlivou verzi než legitimní, protože první se zdá být novější.

Tato forma útoku, která je také známá jako zmatek, byla poprvé prokázána v roce 2021 v exploitu důkazu koncepce, který provedl padělaný kód v sítích patřících některým z největších společností na planetě, Apple, Microsoft a Tesla včetně. Je to jeden typ techniky používané při útocích dodavatelského řetězce softwaru, jejichž cílem je otravovat software ve svém samotném zdroji ve snaze infikovat všechny uživatele po proudu.

„Jakmile útočník zveřejní balíček pod halucinovaným jménem, obsahující nějaký škodlivý kód, spoléhají na model, který naznačuje, že toto jméno netušících uživatelů,“ Joseph Spracklen, Texas University v San Antonio Ph.D. Student a vedoucí výzkumný pracovník, řekl ARS e -mailem. „Pokud uživatel důvěřuje výstupu LLM a nainstaluje balíček, aniž by jej pečlivě ověřil, užitečné zatížení útočníka, skrytého v škodlivém balíčku, by bylo provedeno v systému uživatele.“

V AI dochází k halucinacím, když LLM produkuje výstupy, které jsou fakticky nesprávné, nesmyslné nebo zcela nesouvisející s úkolem, který byl přiřazen. Halucinace dlouho pronásledovaly LLM, protože degradují jejich užitečnost a důvěryhodnost a ukázaly se, že je obtížné předvídat a napravit. V příspěvku naplánovaném na prezentaci na bezpečnostním sympoziu 2025 USENIX dabovali jev „balíčkový halucinace“.

Pro studii provedli vědci 30 testů, 16 v programovacím jazyce Python a 14 v JavaScriptu, který generoval 19 200 vzorků kódu na test, celkem 576 000 vzorků kódu. Z referencí 2,23 milionu balíčků obsažených v těchto vzorcích, 440 445, nebo 19,7 procenta, poukázala na balíčky, které neexistovaly. Mezi těmito 440 445 halucinacemi balíčků mělo 205 474 jedinečné názvy balíčků.

Jednou z věcí, která způsobuje, že halucinace balíčků potenciálně užitečnými při útocích dodavatelského řetězce je to, že 43 procent halucinací balíků bylo opakováno v 10 dotazech. „Kromě toho,“ napsali vědci, „58 procent času se halucinovaný balíček opakuje více než jednou z 10 iterací, což ukazuje, že většina halucinací není jednoduše náhodná chyby, ale opakovatelná jev, který přetrvává napříč různými iteracemi. To je významné, protože přetrvávající halucinace je cennější pro škodlivé aktéry, která je více nežárožcejší, je více nežárožnější,„ napadení vektorem, “to je více nežádoucí,„ napadení vektorem “, což je více nežárožce, je„ napadení více nežádoucím “, což je více nežádoucí.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com