Závod v blokování škrabacích botů OpenAI se zpomaluje

Je příliš brzy říkat, jak se otřese přívaly obchodů mezi společnostmi s umělou inteligencí a vydavateli. OpenAI si však již připsalo jedno jasné vítězství: jeho webové prohledávače nejsou blokovány špičkovými zpravodajskými servery tak, jak tomu bylo dříve.

Generativní boom umělé inteligence vyvolal zlatou horečku po datech – a následnou vlnu ochrany dat (ostatně pro většinu zpravodajských webů), ve které se vydavatelé snažili blokovat prohledávače AI a zabránit tomu, aby se jejich práce stala tréninkovými daty bez souhlasu. Když například Apple letos v létě debutoval s novým agentem umělé inteligence, řada předních zpravodajských kanálů se rychle odhlásila ze stahování webu Apple pomocí protokolu Robots Exclusion Protocol neboli robots.txt, což je soubor, který webmasterům umožňuje ovládat roboty. Na scéně je tolik nových robotů s umělou inteligencí, že si můžete připadat jako hrát whack-a-mol, abyste drželi krok.

OpenAI GPTBot má největší rozpoznávání jmen a je také častěji blokován než konkurenti jako Google AI. Počet vysoce postavených mediálních webů, které používají robots.txt k „znemožnění“ GPTBot OpenAI, se od svého spuštění v srpnu 2023 do tohoto podzimu dramaticky zvýšil, poté stabilně (ale postupně) rostl od listopadu 2023 do dubna 2024, podle analýzy 1 000 oblíbené zpravodajské servery od startupu Originality AI se sídlem v Ontariu. V době svého vrcholu dosahovalo maximum jen něco málo přes třetinu webových stránek; nyní klesla blíže ke čtvrtině. V rámci menší skupiny nejprominentnějších zpravodajských kanálů je míra blokování stále nad 50 procenty, ale z výšek na začátku tohoto roku klesla o téměř 90 procent.

Ale loni v květnu, poté, co Dotdash Meredith oznámil licenční smlouvu s OpenAI, toto číslo výrazně kleslo. Poté znovu klesl na konci května, když Vox oznámil své vlastní uspořádání – a znovu letos v srpnu, kdy mateřská společnost WIRED, Condé Nast, uzavřela dohodu. Zdá se, že trend ke zvýšenému blokování je u konce, alespoň prozatím.

Tyto dipy mají jasný smysl. Když společnosti uzavřou partnerství a dají svolení k použití svých dat, již nejsou motivovány k tomu, aby je zabarikádovaly, takže by z toho vyplývalo, že by aktualizovaly své soubory robots.txt, aby umožňovaly procházení; uzavřít dostatek obchodů a celkové procento stránek blokujících prohledávače téměř jistě klesne. Některé prodejny odblokovaly prohledávače OpenAI ve stejný den, kdy oznámily dohodu, jako The Atlantic. Jiným to trvalo několik dní až několik týdnů, jako Vox, který oznámil své partnerství na konci května, ale který koncem června odblokoval GPTBot na jeho vlastnostech.

Robots.txt není právně závazný, ale již dlouho funguje jako standard, kterým se řídí chování webových prohledávačů. Po většinu existence internetu lidé provozující webové stránky očekávali, že se budou soubory řídit. Když vyšetřování WIRED začátkem tohoto léta zjistilo, že AI startup Perplexity se pravděpodobně rozhodl ignorovat příkazy robots.txt, cloudová divize Amazonu zahájila vyšetřování, zda Perplexity neporušila jeho pravidla. Ignorování souboru robots.txt není dobré, což pravděpodobně vysvětluje, proč tolik předních společností s umělou inteligencí – včetně OpenAI – výslovně uvádí, že jej používají k určování, co má procházet. Originalita CEO AI Jon Gillham věří, že to přidává další naléhavost k úsilí OpenAI uzavírat dohody. „Je jasné, že OpenAI považuje blokování za hrozbu pro své budoucí ambice,“ říká Gillham.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com