Zde je návod, jak generativní umělá inteligence zobrazuje divné lidi

Další potenciální strategií pro diverzifikaci výstupu z modelů umělé inteligence je, aby vývojáři přidali zábradlí a upravili uživatelské výzvy, čímž posouvají software směrem k inkluzivitě. Zdá se, že OpenAI zvolila tento přístup. Když jsem Dall-E 3 přes ChatGPT požádal, aby „nakreslil karikaturu podivného páru užívajícího si noc v Castru“, rozšířilo to výzvu k obrázku, aniž bych se ho zeptal, na celý odstavec, který zahrnoval pohlaví, rasu a další pozadí. podrobnosti. Zde je úplná výzva vytvořená ChatGPT z mého původního požadavku na obrázek:

Kreslená ilustrace podivného páru, který si užívá noc v Castro District, San Francisco. Šťastně chodí ruku v ruce, usmívají se a povídají si. Jedna osoba je kavkazská žena s krátkými zrzavými vlasy ve stylové džínové bundě a džínách. Druhá osoba je černoch s krátkými černými vlasy, sportovní neformální zelené tričko a černé kalhoty. Pozadí nabízí pulzující a barevný pouliční život Castra s duhovými vlajkami, rušnými kavárnami a živými davy. Atmosféra je radostná a přívětivá, podtrhující rozmanitost a inkluzivitu této oblasti.

I když je v některých případech užitečné, může být změna výzev pro uživatele také frustrující, pokud je špatně implementována. Generální ředitel společnosti Google se omluvil, když Gemini, generativní platforma Google pro umělou inteligenci, změnila uživatelské výzvy a vygenerovala fotografie černých nacistů a další ahistorické obrázky. Bylo uvnitř společnosti tajné spiknutí s cílem vymazat kavkazské lidi z historie? Je pravděpodobnější, že inženýři Gemini zjistili, že nástroj zpočátku nadměrně produkoval obrázky bílých mužů, jako to v současnosti dělá mnoho nástrojů AI, a zdá se, že vývojáři Google přehnali své opravné úpravy během spěchu se spuštěním předplatitelského chatbota společnosti.

I s lepšími daty modelu a softwarovými mantinely se může plynulost lidské existence vyhnout rigiditě algoritmické kategorizace. „V podstatě využívají minulost k vytváření budoucnosti,“ říká William Agnew, postdoktorand na Carnegie Mellon a dlouholetý organizátor Queer in AI. „Vypadá to jako protiklad nekonečného potenciálu pro růst a změnu, který je velkou součástí queer komunit.“ Zesílením stereotypů nejenže nástroje AI riskují divoké zkreslení menšinových skupin široké veřejnosti, ale tyto algoritmy mají také potenciál omezit to, jak se divní lidé vidí a chápou sami sebe.

Stojí za to se pozastavit na chvíli uznat krkolomnou rychlost, s jakou se některé aspekty generativní umělé inteligence stále zlepšují. V roce 2023 vzplál internet zesměšňováním monstrózního videa AI, na kterém Will Smith jí špagety. O rok později jsou klipy text-to-video z dosud nevydaného modelu Sora od OpenAI stále nedokonalé, ale často jsou svým fotorealismem podivné.

Video nástroj AI je stále ve fázi výzkumu a nebyl uvolněn pro veřejnost, ale chtěl jsem lépe porozumět tomu, jak představuje queer lidi. Oslovil jsem tedy OpenAI a poskytl jsem Soře tři podněty: „různorodá skupina přátel oslavující během přehlídky hrdosti v San Franciscu na barevném duhovém plováku“; „dvě ženy v úžasných svatebních šatech se vdávají na farmě v Kansasu“; a „transgender muž a jeho nebinární partnerka hrají deskovou hru ve vesmíru“. O týden později jsem obdržel tři exkluzivní videoklipy, o kterých společnost tvrdí, že byly vygenerovány jejím modelem převodu textu na video bez úprav.

Toto video vytvořené umělou inteligencí bylo natočeno s výzvou „různorodá skupina přátel slavících během sanfranciské Pride parade na barevném duhovém plováku“. Při opětovném sledování klipu se zaměřte na různé lidi, kteří jezdí na plováku, abyste si všimli zvláštností v generaci, od mizejících vlajek po legrační nohy.

Sora přes OpenAI

Videoklipy jsou chaotické, ale úžasné. Lidé jedoucí na plováku v sanfranciském průvodu Pride mávají duhovými vlajkami, které porušují fyzikální zákony, když se proměňují v nicotu a znovu se objevují ze vzduchu. Dvě nevěsty v bílých šatech se na sebe usmívají stojící u oltáře a jejich ruce se spojují do bezbožného shluku prstů. Zatímco podivný pár hraje deskovou hru, zdá se, že procházejí hracími figurkami, jako by to byli duchové.

Toto video vytvořené umělou inteligencí bylo natočeno s výzvou „transgender muž a jeho nebinární partnerka hrají deskovou hru ve vesmíru“. Je to dobrý nápad, aby si skuteční astronauti skutečně nasadili helmy, když se vznášejí ve vesmíru.

Sora přes OpenAI

Klip, který má ukazovat nebinární osobu hrající hry ve vesmíru, je mezi třemi videi nápadný. Zjevně podivně zakódované šeříkové zámky se vracejí, po kůži se jim rozlije rozcuchaná tetování a jejich obličej pohltí hyperpigmentace připomínající šupiny plazů. Dokonce i pro působivý generátor videa AI, jako je Sora, se zobrazení nebinárních lidí zdá být náročné.

Toto video vytvořené umělou inteligencí bylo natočeno s výzvou „dvě ženy v úžasných svatebních šatech se vdávají na farmě v Kansasu.“ I když to na první pohled vypadá realisticky, podívejte se ještě jednou na to, jak se ruce nevěst splývají.

Sora přes OpenAI

Když WIRED ukázali tyto klipy členům Queer in AI, zpochybnili Sorovu definici diverzity ohledně skupiny přátel na Pride parade. „Modely jsou naší základní linií pro to, jak vypadá rozmanitost?“ ptá se Sabine Weber, počítačová vědkyně z Německa. Kromě toho, že Weber poukázal na přehnanou přitažlivost lidí ve videu, což je běžný jev pro vizualizace AI, Weber se zeptal, proč zde není více zastoupeno queer lidí, kteří jsou starší, větší postavy nebo mají viditelné postižení. .

Ke konci našeho rozhovoru Agnew uvedl, proč mohou být algoritmické reprezentace pro LGBTQ lidi znepokojivé. „Je triviální přimět je, aby kombinovali věci, které samy o sobě jsou fajn, ale dohromady jsou hluboce problematické,“ říkají. „Velmi se obávám, že se nám líčení nás samých, které jsou již tak neustálým bojištěm, náhle vymkne z rukou.“ I když nástroje umělé inteligence budou v budoucnu zahrnovat holističtější reprezentace queer lidí, syntetická zobrazení mohou mít nezamýšlené důsledky.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com