Nástroje umělé inteligence se tajně trénují na skutečných obrázcích dětí

Více než 170 obrázků a osobních údajů dětí z Brazílie bylo bez jejich vědomí nebo souhlasu seškrábáno open-source datovým souborem a použito k výcviku AI, tvrdí nová zpráva Human Rights Watch zveřejněná v pondělí.

Podle zprávy byly obrázky staženy z obsahu zveřejněného teprve v roce 2023 a již v polovině 90. let, dlouho předtím, než by jakýkoli uživatel internetu mohl předpokládat, že jejich obsah může být použit k trénování umělé inteligence. Human Rights Watch tvrdí, že osobní údaje těchto dětí, spolu s odkazy na jejich fotografie, byly zahrnuty do LAION-5B, datové sady, která je oblíbeným zdrojem školicích dat pro začínající umělou inteligenci.

„Jejich soukromí je narušeno v první řadě, když je jejich fotografie seškrábána a smetena do těchto datových souborů. A pak jsou tyto nástroje umělé inteligence trénovány na těchto datech, a proto mohou vytvářet realistické snímky dětí,“ říká Hye Jung Han, výzkumník v oblasti dětských práv a technologií z Human Right Watch a výzkumník, který tyto snímky našel. „Tato technologie je vyvinuta takovým způsobem, že každé dítě, které má na internetu jakoukoli fotku nebo video, je nyní v ohrožení, protože jakýkoli zákeřný herec by mohl tuto fotografii pořídit a pomocí těchto nástrojů s nimi manipulovat, jakkoli chtějí.“

LAION-5B je založen na Common Crawl – úložišti dat, které bylo vytvořeno smazáním webu a zpřístupněno výzkumníkům – a bylo použito k trénování několika modelů umělé inteligence, včetně nástroje pro generování obrázků Stable Diffusion společnosti Stability AI. Datový soubor, který vytvořila německá nezisková organizace LAION, je otevřeně přístupný a nyní obsahuje více než 5,85 miliardy párů obrázků a popisků, uvádí její web.

Snímky dětí, které výzkumníci našli, pocházely z blogů maminek a dalších osobních, mateřských nebo rodičovských blogů, stejně jako fotografie z videí YouTube s malým počtem zhlédnutí, které byly zdánlivě nahrány za účelem sdílení s rodinou a přáteli.

„Jen se podíváme na kontext, kde byli zveřejněni, měli očekávání a míru soukromí,“ říká Hye. „Většinu těchto obrázků nebylo možné najít online pomocí zpětného vyhledávání obrázků.“

Mluvčí LAION Nate Tyler říká, že organizace již přijala opatření. „LAION-5B byly staženy v reakci na zprávu ze Stanfordu, která nalezla v datovém souboru odkazy ukazující na nelegální obsah na veřejném webu,“ říká a dodává, že organizace v současné době spolupracuje s „Internet Watch Foundation, Kanadským centrem pro děti“. Protection, Stanford a Human Rights Watch, aby odstranily všechny známé odkazy na nezákonný obsah.“

Podmínky služby YouTube nepovolují scraping s výjimkou určitých okolností; Zdá se, že tyto případy jsou v rozporu s těmito zásadami. „Ujasnili jsme si, že neoprávněné stahování obsahu YouTube je porušením našich smluvních podmínek,“ říká mluvčí YouTube Jack Maon, „a nadále podnikáme kroky proti tomuto typu zneužívání.“

V prosinci vědci ze Stanfordské univerzity zjistili, že údaje o výcviku AI shromážděné LAION-5B obsahují materiál týkající se sexuálního zneužívání dětí. Problém explicitních deepfakes je na vzestupu i mezi studenty amerických škol, kde jsou zvyklí šikanovat spolužáky, zejména dívky. Hye se obává, že kromě použití dětských fotografií ke generování CSAM by databáze mohla odhalit potenciálně citlivé informace, jako jsou místa nebo lékařské údaje. V roce 2022 nalezla umělkyně sídlící v USA svůj vlastní obrázek v datovém souboru LAION a uvědomila si, že pochází z jejích soukromých lékařských záznamů.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com