Boj proti umělé inteligenci přichází k základnímu souboru dat

Dánská média požadovala, aby neziskový webový archiv Common Crawl odstranil kopie jejich článků z minulých datových sad a okamžitě zastavil procházení jejich webových stránek. Tento požadavek byl vydán uprostřed rostoucího rozhořčení nad tím, jak společnosti s umělou inteligencí, jako je OpenAI, používají materiály chráněné autorskými právy.

Common Crawl plánuje vyhovět žádosti, která byla poprvé vydána v pondělí. Výkonný ředitel Rich Skrenta říká, že organizace „není vybavena“, aby mohla bojovat proti mediálním společnostem a vydavatelům u soudu.

V čele kampaně stála Danish Rights Alliance (DRA), sdružení zastupující držitele autorských práv v Dánsku. Žádost podala jménem čtyř médií, včetně Berlingske Media a deníku Jyllands-Posten. The New York Times podal podobný požadavek na Common Crawl v loňském roce, předtím, než podal žalobu na OpenAI za použití jeho práce bez povolení. Ve své stížnosti New York Times zdůraznily, že data Common Crawl byla nejvíce „vysoce váženým souborem dat“ v GPT-3.

Thomas Heldrup, vedoucí ochrany a vymáhání obsahu DRA, říká, že toto nové úsilí bylo inspirováno Timesy. „Common Crawl je jedinečný v tom smyslu, že vidíme, že jejich data využívá tolik velkých společností s umělou inteligencí,“ říká Heldrup. Jeho korpus považuje za hrozbu pro mediální společnosti, které se pokoušejí vyjednávat s AI titány.

Ačkoli Common Crawl bylo zásadní pro vývoj mnoha textových generativních nástrojů umělé inteligence, nebylo navrženo s ohledem na umělou inteligenci. Organizace se sídlem v San Francisku, založená v roce 2007, byla před boomem umělé inteligence známá především pro svou hodnotu jako výzkumný nástroj. „Common Crawl je chycen v tomto konfliktu ohledně autorských práv a generativní umělé inteligence,“ říká Stefan Baack, datový analytik z Mozilla Foundation, který nedávno zveřejnil zprávu o úloze Common Crawl ve školení AI. „Po mnoho let to byl malý specializovaný projekt, o kterém téměř nikdo nevěděl.“

Před rokem 2023 společnost Common Crawl neobdržela jediný požadavek na redigování dat. Nyní, kromě žádostí od New York Times a této skupiny dánských vydavatelů, přichází také s nárůstem žádostí, které nebyly zveřejněny.

Kromě tohoto prudkého nárůstu požadavků na redigování dat je webový prohledávač CCBot společnosti Common Crawl také stále více mařen v hromadění nových dat od vydavatelů. Podle startupu Originality AI pro detekci umělé inteligence, který často sleduje používání webových prohledávačů, více než 44 procent předních světových zpravodajských a mediálních serverů blokuje CCBot. Kromě Buzzfeedu, který jej začal blokovat v roce 2018, většina prominentních prodejen, které analyzoval – včetně Reuters, The Washington Post a CBC – tento prohledávač zavrhla až v posledním roce. „Jsou blokováni stále více,“ říká Baack.

Rychlé vyhovění tomuto druhu požadavku ze strany Common Crawl je řízeno realitou udržování malé neziskové organizace nad vodou. Dodržování se však nerovná ideologické dohodě. Skrenta vidí tento tlak na odstranění archivních materiálů z datových úložišť, jako je Common Crawl, jako nic jiného než urážku internetu, jak ho známe. „Je to existenční hrozba,“ říká. „Zabijí otevřenou síť.“

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com