Nové měřítko pro rizika AI

MLCommons, nezisková organizace, která pomáhá společnostem měřit výkon jejich systémů umělé inteligence, spouští nový benchmark, který má také změřit špatnou stránku AI.

Nový benchmark nazvaný AILuminate hodnotí reakce velkých jazykových modelů na více než 12 000 testovacích výzev ve 12 kategoriích včetně podněcování k násilné trestné činnosti, sexuálního vykořisťování dětí, nenávistných projevů, propagace sebepoškozování a porušování duševního vlastnictví.

Modely dostávají skóre „špatné“, „spravedlivé“, „dobré“, „velmi dobré“ nebo „výborné“ v závislosti na jejich výkonu. Výzvy používané k testování modelů jsou uchovávány v tajnosti, aby se zabránilo tomu, že skončí jako tréninková data, která by modelu umožnila obstát v testu.

Peter Mattson, zakladatel a prezident MLCommons a vedoucí personální inženýr ve společnosti Google, říká, že měření potenciálních škod modelů umělé inteligence je technicky obtížné, což vede k nesrovnalostem v celém odvětví. „AI je opravdu mladá technologie a testování umělé inteligence je opravdu mladá disciplína,“ říká. „Zlepšování bezpečnosti prospívá společnosti; prospívá také trhu.“

Spolehlivé, nezávislé způsoby měření rizik umělé inteligence se mohou stát relevantnějšími za příští vlády USA. Donald Trump slíbil, že se zbaví výkonného příkazu prezidenta Bidena pro umělou inteligenci, který zavedl opatření zaměřená na zajištění odpovědného využívání umělé inteligence společnostmi, stejně jako nový institut AI Safety Institute k testování výkonných modelů.

Toto úsilí by také mohlo poskytnout více mezinárodního pohledu na poškození AI. MLCommons počítá mezi své členské organizace řadu mezinárodních firem, včetně čínských společností Huawei a Alibaba. Pokud by všechny tyto společnosti použily nový benchmark, poskytlo by to způsob, jak porovnat bezpečnost AI v USA, Číně a jinde.

Někteří velcí američtí poskytovatelé umělé inteligence již AILuminate použili k testování svých modelů. Model Claude od společnosti Anthropic, menší model Gemma od Googlu a model od Microsoftu s názvem Phi dosáhly v testování „velmi dobře“. GPT-4o od OpenAI a největší model Llama od Meta dosáhly „dobré“. Jediný model s hodnocením „špatný“ byl OLMo z Allen Institute for AI, ačkoli Mattson poznamenává, že se jedná o nabídku výzkumu, která nebyla navržena s ohledem na bezpečnost.

„Celkově je dobré vidět vědeckou přísnost v procesech hodnocení AI,“ říká Rumman Chowdhury, generální ředitel Humane Intelligence, neziskové organizace, která se specializuje na testování nebo red-teaming modelů umělé inteligence pro špatné chování. „Potřebujeme osvědčené postupy a inkluzivní metody měření, abychom zjistili, zda modely umělé inteligence fungují tak, jak očekáváme.“

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com