Jak se čínští chatboti AI cenzurují

Slyšet někoho mluvit o digitální cenzuře v Číně je vždy buď extrémně nudné, nebo extrémně zajímavé. Většinu času lidé stále opakují stejné myšlenky z doby před 20 lety o tom, jak je čínský internet jako život v George Orwell 1984. Občas ale někdo objeví něco nového o tom, jak čínská vláda kontroluje vznikající technologie, a odhalí, že cenzurní mašinérie je neustále se vyvíjející bestie.

Do druhé kategorie patří nový článek vědců ze Stanford University a Princeton University o čínské umělé inteligenci. Výzkumníci dali stejných 145 politicky citlivých otázek čtyřem čínským velkým jazykovým modelům a pěti americkým modelům a poté porovnali, jak reagovaly. Poté opakovali stejný experiment 100krát.

Hlavní zjištění nikoho, kdo tomu věnuje pozornost, nepřekvapí: čínské modely odmítají odpovídat na podstatně více otázek než americké modely. (DeepSeek odmítl 36 procent otázek, zatímco Ernie Bot z Baidu odmítl 32 procent; OpenAI GPT a Meta’s Llama měly míru odmítnutí nižší než 3 procenta.) V případech, kdy přímo neodmítly odpovědět, čínské modely také poskytly kratší odpovědi a více nepřesných informací než jejich americké protějšky.

Jedna z nejzajímavějších věcí, o kterou se výzkumníci pokusili, bylo oddělit dopad předtréninku a po tréninku. Otázka zde zní: Jsou čínské modely více zaujaté, protože vývojáři ručně zasáhli, aby bylo méně pravděpodobné, že budou odpovídat na citlivé otázky, nebo jsou zaujaté, protože byly vyškoleny na datech z čínského internetu, který je již silně cenzurován?

„Vzhledem k tomu, že čínský internet byl již celá ta desetiletí cenzurován, chybí zde mnoho dat,“ říká Jennifer Pan, profesorka politologie na Stanfordské univerzitě, která dlouho studovala online cenzuru a je spoluautorkou nedávného článku.

Zjištění Pan a jejího kolegy naznačují, že tréninková data mohla hrát menší roli v tom, jak modely AI reagovaly, než manuální zásahy. Dokonce i při odpovídání v angličtině, pro kterou by tréninková data modelu teoreticky zahrnovala širší škálu zdrojů, čínští LLM stále vykazovali ve svých odpovědích větší cenzuru.

Dnes může kdokoli položit DeepSeek nebo Qwen otázku ohledně masakru na náměstí Nebeského klidu a okamžitě vidět, jak se cenzura děje, ale je těžké říct, jak moc to ovlivňuje běžné uživatele a jak správně identifikovat zdroj manipulace. To je důvod, proč je tento výzkum důležitý: Poskytuje kvantifikovatelné a replikovatelné důkazy o pozorovatelných zkresleních čínských LLM.

Kromě diskuse o jejich zjištěních jsem se zeptal autorů na jejich metody a problémy studia zkreslení v čínských modelech a hovořil jsem s dalšími výzkumníky, abych pochopil, kam debata o cenzuře AI směřuje.

Co nevíte

Jednou z obtíží studia modelů umělé inteligence je to, že mají sklon k halucinacím, takže nemůžete vždy zjistit, zda lžou, protože vědí, že nemají říct správnou odpověď, nebo protože to ve skutečnosti nevědí.

Jedním příkladem, který Pan citovala ve svém článku, byla otázka týkající se Liou Siao-poa, čínského disidenta, který byl oceněn Nobelovou cenou za mír v roce 2010. Jeden čínský model odpověděl, že „Liou Siao-po je japonský vědec známý pro své příspěvky k technologii jaderných zbraní a mezinárodní politice.“ To je samozřejmě naprostá lež. Ale proč to model řekl? Byl záměrem nesprávně nasměrovat uživatele a zabránit jim, aby se dozvěděli více o skutečném Liu Xiaobo, nebo byla AI halucinující, protože všechny zmínky o Liu byly vyřazeny z jejích tréninkových dat?

„Je to mnohem hlučnější míra cenzury,“ říká Pan a srovnává to se svou předchozí prací, která zkoumala čínská sociální média a jaké webové stránky se čínská vláda rozhodla blokovat. „Protože tyto signály jsou méně jasné, je těžší odhalit cenzuru a mnoho mých předchozích výzkumů ukázalo, že když je cenzura méně zjistitelná, tehdy je nejúčinnější.“

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com