AI šíří staré stereotypy do nových jazyků a kultur







Existují tedy údaje o školení. Pak je tu jemné doladění a hodnocení. Údaje o školení mohou obsahovat všechny druhy skutečně problematických stereotypů napříč zeměmi, ale pak se techniky zmírňování zkreslení mohou dívat pouze na angličtinu. Zejména to má tendenci být severoamerický a americký. I když byste mohli nějakým způsobem snížit zkreslení pro anglické uživatele v USA, neudělali jste to po celém světě. Stále riskujete, že celosvětově zesílíte opravdu škodlivé názory, protože jste se zaměřili pouze na angličtinu.

Zavádí generativní AI nové stereotypy do různých jazyků a kultur?

To je součást toho, co najdeme. Myšlenka, že blondýnky jsou hloupé, není něco, co se nachází po celém světě, ale nachází se v mnoha jazycích, na které jsme se podívali.

Pokud máte všechna data v jednom sdíleném latentním prostoru, pak se sémantické koncepty mohou přenést napříč jazyky. Riskujete šíření škodlivých stereotypů, na které ostatní lidé ani nepomysleli.

Je pravda, že modely AI někdy ospravedlňují stereotypy ve svých výstupech pouhým sračky?

To bylo něco, co vyšlo v našich diskusích o tom, co jsme našli. Všichni jsme byli tak divného, ​​že některé stereotypy byly oprávněny odkazy na vědeckou literaturu, která neexistovala.

Výstupy, které říká, že například věda ukázala genetické rozdíly, kde nebyla prokázána, což je základem vědeckého rasismu. Výstupy AI předkládaly tyto pseudo-vědecké názory a poté také používaly jazyk, který navrhoval akademické psaní nebo akademickou podporu. Mluvilo o těchto věcech, jako by to byla fakta, když vůbec nejsou faktické.

Jaké byly některé z největších výzev při práci na datovém souboru Shades?

Jednou z největších výzev byla kolem jazykových rozdílů. Opravdu běžný přístup k hodnocení zaujatosti je používat angličtinu a vydělat větu se slotem jako: „Lidé z [nation] jsou nedůvěryhodné. “ Pak převrátíte různé národy.

Když začnete vkládat pohlaví, nyní se zbytek věty začne muset dohodnout gramaticky na pohlaví. To bylo opravdu omezením pro hodnocení zkreslení, protože pokud chcete provádět tyto kontrastní swapy v jiných jazycích – což je super užitečné pro měření zaujatosti – musíte se zbytek věty změnit. Potřebujete různé překlady, kde se mění celá věta.

Jak vyrobíte šablony, kde se celá věta musí souhlasit s pohlavím, v počtu, v pluralitě a všech těchto různých druzích věcí s cílem stereotypu? Abychom to zodpovídali, museli jsme přijít s vlastní lingvistickou anotací. Naštěstí se zapojilo několik lidí, kteří byli jazykové pitomci.

Nyní tedy můžete provádět tato kontrastní tvrzení ve všech těchto jazycích, dokonce i ty s opravdu tvrdými pravidly dohody, protože jsme vyvinuli tento románový přístup založený na šabloně pro hodnocení zkreslení, který je syntakticky citlivý.

Je známo, že generativní AI už nějakou dobu zesiluje stereotypy. Proč jsou tyto druhy extrémních zkreslení stále převládající s tolika pokrokem v jiných aspektech výzkumu AI? Je to problém, který se zdá být nedostatečně adresovaný.

To je docela velká otázka. Existuje několik různých druhů odpovědí. Jeden je kulturní. Myslím, že v mnoha technologických společnostech se věří, že to není opravdu tak velký problém. Nebo, pokud ano, je to docela jednoduchá oprava. To, co bude upřednostňováno, pokud bude něco upřednostňováno, jsou tyto jednoduché přístupy, které se mohou pokazit.

Dostaneme povrchní opravy pro velmi základní věci. Pokud řeknete dívky jako Pink, uznává to jako stereotyp, protože je to jen věc, že ​​pokud si myslíte o prototypových stereotypech, objeví se na vás, že? Tyto základní případy budou řešeny. Je to velmi jednoduchý, povrchní přístup, kdy se tyto hlouběji zakořeněné přesvědčení nezabývají.

Nakonec to bude kulturní problém i technický problém, jak zjistit, jak se dostat k hluboce zakořeněným zkreslením, které se nevyjadřují ve velmi jasném jazyce.





Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com