Uvnitř nepublikované zprávy Biden Administration o bezpečnosti AI

Na konferenci o počítačové bezpečnosti v Arlingtonu ve Virginii, loni v říjnu, se několik desítek AI vědců zúčastnilo prvního cvičení v „červeném týmu“ nebo na stresovém testování špičkového jazykového modelu a dalších systémů umělé inteligence. V průběhu dvou dnů týmy identifikovaly 139 nových způsobů, jak přimět systémy, které se mají chovat, včetně generováním dezinformací nebo úniku osobních údajů. Ještě důležitější je, že ukázali nedostatky v novém standardu americké vlády navržené tak, aby pomohly společnostem testovat systémy AI.

Národní institut standardů a technologií (NIST) nezveřejnil zprávu s podrobnostmi o cvičení, která byla dokončena ke konci Biden Administration. Dokument mohl společnostem pomoci posoudit jejich vlastní systémy AI, ale zdroje, které jsou obeznámeny se situací, kteří hovořili pod podmínkou anonymity, tvrdí, že to byl jeden z několika dokumentů AI od NIST, které nebyly zveřejněny ze strachu ze střetu s příchozí administrativou.

„Stalo se to velmi obtížné, dokonce i pod.“ [president Joe] Biden, abych získal jakékoli doklady, “říká zdroj, který byl v té době NIST.„ Bylo to velmi jako výzkum změny klimatu nebo výzkum cigaret. “

Ani NIST, ani ministerstvo obchodu neodpověděly na žádost o komentář.

Před nástupem do funkce prezident Donald Trump signalizoval, že plánuje zvrátit Bidenův výkonný příkaz na AI. Trumpova administrativa od té doby odvrátila odborníky od studia problémů, jako je algoritmická zaujatost nebo spravedlnost v systémech AI. Akční plán AI zveřejněný v červenci výslovně vyžaduje, aby byl rámec pro řízení rizik AI NIST revidován „k odstranění odkazů na dezinformace, rozmanitost, spravedlnost a začlenění a změnu klimatu“.

Je ironií, že Trumpův akční plán AI však také vyžaduje přesně takový druh cvičení, na které se nepublikovaná zpráva týkala. Vyzývá mnoho agentur spolu s NIST, aby „koordinovaly iniciativu AI Hackathon, aby získala nejlepší a nejjasnější z americké akademické obce, aby testovala systémy AI z hlediska transparentnosti, efektivity, používání a bezpečnostní zranitelnosti“.

Akce Red-Teaming byla uspořádána prostřednictvím hodnotícího rizika a dopadů AI (Aria) společnosti NIST ve spolupráci s Humane Intelligence, společností, která se specializuje na testování systémů AI Systems Saw Team Attack Tools. Akce se konala na konferenci o Applied Machine Learning in Information Security (CAMLIS).

Zpráva Camlis Red Teaming popisuje úsilí o prozkoumání několika špičkových systémů AI, včetně Llamy, Meta’s Open Source s velkým jazykovým modelem; Anote, platforma pro budování a jemné doladění modelů AI; Systém, který blokuje útoky na systémy AI od Robust Intelligence, společnosti, kterou získala společnost Cisco; a platformu pro generování AI avatarů z firmy Synthesia. Zástupci každé ze společností se také účastnili cvičení.

Účastníci byli požádáni, aby k posouzení nástrojů AI použili rámec NIST AI 600-1. Rámec zahrnuje kategorie rizik, včetně generování dezinformačních nebo kybernetických útoků, úniku informací o soukromém uživateli nebo kritických informací o souvisejících systémech AI a potenciálu, aby se uživatelé emocionálně připojili k nástrojům AI.

Vědci objevili různé triky pro testování modelů a nástrojů, aby skočily na své zábradlí a generovaly dezinformace, prosadily osobní údaje a pomáhaly řešit útoky na kybernetickou bezpečnosti. Zpráva uvádí, že zúčastnění viděli, že některé prvky rámce NIST byly užitečnější než jiné. Zpráva uvádí, že některé z rizikových kategorií NIST byly v praxi nedostatečně definovány, aby byly užitečné.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com