Bo Li, docent na Chicagské univerzitě, který se specializuje na zátěžové testování a provokování modelů umělé inteligence k odhalení špatného chování, se stal pro některé poradenské firmy zdrojem informací. Tyto poradenské společnosti se nyní často méně zabývají tím, jak chytré jsou modely umělé inteligence, než tím, jak problematické – právně, eticky a z hlediska dodržování předpisů – mohou být.
Li a kolegové z několika dalších univerzit, stejně jako Virtue AI, spoluzaložené Li a Lapis Labs, nedávno vyvinuli taxonomii rizik AI spolu s benchmarkem, který odhaluje, jak porušují pravidla různé velké jazykové modely. „Potřebujeme určité zásady pro bezpečnost umělé inteligence, pokud jde o dodržování předpisů a běžné používání,“ říká Li pro WIRED.
Výzkumníci analyzovali vládní nařízení a pokyny týkající se umělé inteligence, včetně předpisů USA, Číny a EU, a prostudovali zásady používání 16 velkých společností s umělou inteligencí z celého světa.
Výzkumníci také vytvořili AIR-Bench 2024, benchmark, který využívá tisíce výzev k určení, jak si populární modely AI vedou z hlediska konkrétních rizik. Ukazuje například, že Claude 3 Opus společnosti Anthropic je na předních místech, pokud jde o odmítnutí generování kybernetických bezpečnostních hrozeb, zatímco Gemini 1.5 Pro od společnosti Google má vysoké hodnocení, pokud jde o vyhýbání se generování nekonsensuální sexuální nahoty.
DBRX Instruct, model vyvinutý společností Databricks, dosáhl celkově nejhoršího skóre. Když společnost v březnu uvedla na trh svůj model, uvedla, že bude pokračovat ve zlepšování bezpečnostních funkcí DBRX Instruct.
Společnosti Anthropic, Google a Databricks na žádost o komentář okamžitě nereagovaly.
Pochopení rizikovosti, stejně jako výhod a nevýhod konkrétních modelů, může být pro společnosti, které chtějí nasadit AI na určitých trzích nebo v určitých případech použití, stále důležitější. Společnost, která chce například využít LLM pro zákaznický servis, by se mohla více zajímat o sklon modelu produkovat urážlivé výrazy, když je provokován, než o to, jak je schopen navrhnout jaderné zařízení.
Bo říká, že analýza také odhaluje některé zajímavé problémy s tím, jak se AI vyvíjí a reguluje. Výzkumníci například zjistili, že vládní pravidla jsou méně komplexní než politika společností celkově, což naznačuje, že existuje prostor pro zpřísnění předpisů.
Analýza také naznačuje, že některé společnosti by mohly udělat více pro zajištění bezpečnosti svých modelů. „Pokud některé modely otestujete na základě vlastních zásad společnosti, nemusí nutně vyhovovat,“ říká Bo. „To znamená, že je tu pro ně velký prostor ke zlepšení.“
Jiní výzkumníci se snaží vnést řád do chaotické a matoucí krajiny rizik AI. Tento týden dva výzkumníci z MIT odhalili svou vlastní databázi nebezpečí AI, sestavenou ze 43 různých rámců rizik AI. „Mnoho organizací je v tomto procesu zavádění umělé inteligence stále poměrně brzy,“ což znamená, že potřebují pokyny ohledně možných nebezpečí, říká Neil Thompson, vědecký pracovník MIT zapojený do projektu.
Peter Slattery, vedoucí projektu a výzkumník ze skupiny FutureTech na MIT, která studuje pokrok v oblasti výpočetní techniky, říká, že databáze zdůrazňuje skutečnost, že některým rizikům umělé inteligence je věnována větší pozornost než jiným. Více než 70 procent rámců zmiňuje například otázky ochrany soukromí a bezpečnosti, ale pouze asi 40 procent odkazuje na dezinformace.
Snahy o katalogizaci a měření rizik AI se budou muset vyvíjet stejně jako AI. Li říká, že bude důležité prozkoumat vznikající problémy, jako je emoční lepivost modelů AI. Její společnost nedávno analyzovala největší a nejvýkonnější verzi modelu Meta’s Llama 3.1. Zjistilo se, že ačkoli je model schopnější, není o moc bezpečnější, což odráží širší odpojení. „Bezpečnost se ve skutečnosti výrazně nezlepšuje,“ říká Li.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com