Jak může teorie her učinit AI spolehlivější

Mnohem větší výzvu pro výzkumníky AI představovala hra Diplomacy – oblíbená mezi politiky jako John F. Kennedy a Henry Kissinger. Namísto pouhých dvou protivníků je ve hře sedm hráčů, jejichž motivy mohou být těžko čitelné. Aby hráč vyhrál, musí vyjednávat a uzavírat dohody o spolupráci, které by kdokoli mohl kdykoli porušit. Diplomacie je tak komplexní, že skupina z Meta byla potěšena, když v roce 2022 její program AI Cicero vyvinul „hra na lidské úrovni“ v průběhu 40 her. I když to neporazilo mistra světa, Cicero si vedl dost dobře na to, aby se umístil v top 10 procentech proti lidským účastníkům.

Během projektu byl Jacob – člen týmu Meta – ohromen skutečností, že Cicero se při vytváření dialogu s ostatními hráči spoléhal na jazykový model. Cítil nevyužitý potenciál. Cílem týmu, řekl, „bylo vytvořit nejlepší jazykový model, jaký jsme mohli pro účely hraní této hry“. Ale co kdyby se místo toho zaměřili na vytvoření co nejlepší hry, aby zlepšili výkon velkých jazykových modelů?

Konsensuální interakce

V roce 2023 se Jacob začal touto otázkou zabývat na MIT a spolupracoval s Yikang Shenem, Gabriele Farinou a jeho poradcem Jacobem Andreasem na tom, co se stane hrou o konsensu. Základní myšlenkou bylo představit si konverzaci mezi dvěma lidmi jako kooperativní hru, kde k úspěchu dojde, když posluchač pochopí, co se řečník snaží sdělit. Konkrétně je konsenzuální hra navržena tak, aby sladila dva systémy jazykového modelu – generátor, který zpracovává generativní otázky, a diskriminátor, který zpracovává ty diskriminační.

Po několika měsících zastávek a rozjezdů tým vybudoval tento princip do plné hry. Nejprve generátor obdrží otázku. Může pocházet od člověka nebo z již existujícího seznamu. Například: „Kde se narodil Barack Obama?“ Generátor pak dostane nějaké odpovědi kandidátů, řekněme Honolulu, Chicago a Nairobi. Tyto možnosti mohou opět pocházet z člověka, seznamu nebo vyhledávání provedeného samotným jazykovým modelem.

Ale před odpovědí je generátoru také řečeno, zda má odpovědět na otázku správně nebo špatně, v závislosti na výsledcích spravedlivého hodu mincí.

Pokud jde o hlavy, stroj se pokusí odpovědět správně. Generátor odešle původní otázku spolu s vybranou odpovědí diskriminátoru. Pokud diskriminátor určí, že generátor úmyslně odeslal správnou odpověď, získá každý jeden bod jako určitý druh pobídky.

Pokud mince dopadne na ocasy, generátor vyšle to, co považuje za špatnou odpověď. Pokud diskriminátor usoudí, že byla záměrně poskytnuta špatná odpověď, oba dostanou bod znovu. Cílem je podnítit dohodu. „Je to jako učit psa trik,“ vysvětlil Jacob. „Dáš jim pamlsek, když udělají správnou věc.“

Generátor a diskriminátor také začínají s určitými počátečními „přesvědčeními“. Ty mají podobu rozdělení pravděpodobnosti související s různými možnostmi. Generátor se například může na základě informací získaných z internetu domnívat, že existuje 80procentní šance, že se Obama narodil v Honolulu, 10procentní šance, že se narodil v Chicagu, 5procentní šance v Nairobi a 5procentní šance na jiná místa. Diskriminátor může začít s jiným rozdělením. Zatímco dva „hráči“ jsou stále odměňováni za dosažení dohody, dostávají také body za to, že se příliš odchýlili od svého původního přesvědčení. Toto uspořádání povzbuzuje hráče, aby do svých odpovědí zahrnuli své znalosti o světě – opět čerpané z internetu –, což by mělo učinit model přesnějším. Bez něčeho takového by se mohli shodnout na naprosto špatné odpovědi jako Dillí, ale přesto sbírali body.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com