Syntetická data jsou nebezpečný učitel

V dubnu 2022, kdy byl vydán Dall-E, visio-lingvistický model text-to-image, přilákal během prvních tří měsíců údajně více než milion uživatelů. Následoval ChatGPT v lednu 2023, který zjevně dosáhl 100 milionů aktivních uživatelů měsíčně pouhé dva měsíce po spuštění. Oba představují významné okamžiky ve vývoji generativní umělé inteligence, která zase přinesla explozi obsahu generovaného umělou inteligencí na web. Špatnou zprávou je, že v roce 2024 to znamená také explozi vymyšlených, nesmyslných informací, dezinformací a dezinformací a vyostření sociálních negativních stereotypů zakódovaných v těchto modelech umělé inteligence.

Revoluce umělé inteligence nebyla vyvolána žádným nedávným teoretickým průlomem – ve skutečnosti většina základní práce, která je základem umělých neuronových sítí, existuje již desítky let – ale „dostupností“ masivních datových souborů. V ideálním případě model umělé inteligence zachycuje daný fenomén – ať už se jedná o lidský jazyk, poznání nebo vizuální svět – způsobem, který co nejvěrněji reprezentuje skutečné jevy.

Například pro velký jazykový model (LLM) pro generování lidského textu je důležité, aby byl model zásobován obrovskými objemy dat, která nějakým způsobem reprezentují lidský jazyk, interakci a komunikaci. Předpokládá se, že čím větší je soubor dat, tím lépe zachycuje lidské záležitosti v celé jejich přirozené kráse, ošklivosti a dokonce i krutosti. Nacházíme se v době, která se vyznačuje posedlostí zvětšovat modely, datové sady a GPU. Například současné LLM nyní vstoupily do éry modelů strojového učení s biliony parametrů, což znamená, že vyžadují miliardové datové sady. Kde to najdeme? Na webu.

Předpokládá se, že tato data získaná z webu zachycují „základní pravdu“ pro lidskou komunikaci a interakci, což je proxy, z níž lze modelovat jazyk. Ačkoli různí výzkumníci nyní prokázali, že soubory online dat jsou často nekvalitní, mají tendenci zhoršovat negativní stereotypy a obsahují problematický obsah, jako jsou urážky rasy a nenávistné projevy, často vůči marginalizovaným skupinám, nezabránilo to velkým společnostem využívajícím umělou inteligenci. taková data v závodě o zvětšení.

S generativní AI se tento problém bude mnohem horší. Spíše než objektivním znázorněním sociálního světa ze vstupních dat tyto modely kódují a zesilují sociální stereotypy. Nedávná práce skutečně ukazuje, že generativní modely kódují a reprodukují rasistické a diskriminační postoje vůči historicky marginalizovaným identitám, kulturám a jazykům.

Je obtížné, ne-li nemožné – dokonce i s nejmodernějšími detekčními nástroji – s jistotou vědět, kolik textových, obrazových, zvukových a obrazových dat se aktuálně generuje a jakým tempem. Výzkumníci ze Stanfordské univerzity Hans Hanley a Zakir Durumeric odhadují, že mezi 1. lednem 2022 a 31. březnem 2023 dojde k 68procentnímu nárůstu počtu syntetických článků zveřejněných na Redditu a 131procentnímu nárůstu dezinformačních zpravodajských článků. Boomy, online hudební generátor společnosti , tvrdí, že dosud vytvořil 14,5 milionu skladeb (nebo 14 procent nahrané hudby). V roce 2021 Nvidia předpověděla, že do roku 2030 bude v modelech umělé inteligence více syntetických dat než skutečných dat. Jedna věc je jistá: Web je zaplavován synteticky generovanými daty.

Znepokojivé je, že toto obrovské množství generativních výstupů AI bude zase použito jako školicí materiál pro budoucí generativní modely AI. V důsledku toho budou v roce 2024 velmi významnou částí školícího materiálu pro generativní modely syntetická data vytvořená z generativních modelů. Brzy budeme uvězněni v rekurzivní smyčce, kde budeme trénovat modely AI pouze za použití syntetických dat vytvořených modely AI. Většina z toho bude kontaminována stereotypy, které budou nadále prohlubovat historické a společenské nerovnosti. Bohužel to budou také data, která použijeme k trénování generativních modelů aplikovaných na vysoce důležitá odvětví včetně medicíny, terapie, vzdělávání a práva. Ještě se musíme vypořádat s katastrofálními důsledky toho. Do roku 2024 se generativní exploze obsahu AI, kterou nyní považujeme za tak fascinující, místo toho stane obrovskou toxickou skládkou, která se nás vrátí a kousne.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com