V samostatné analýze provedené tento týden datový novinář Ben Welsh zjistil, že jen něco málo přes čtvrtinu zpravodajských webů, které zkoumal (294 z 1 167 primárně anglicky psaných publikací v USA), blokuje Applebot-Extended. Pro srovnání, Welsh zjistil, že 53 procent zpravodajských webů v jeho ukázce blokuje bota OpenAI. Google loni v září představil svého vlastního robota specifického pro umělou inteligenci, Google-Extended; je blokován téměř 43 procenty těchto stránek, což je známkou toho, že Applebot-Extended může být stále pod radarem. Jak říká Welsh pro WIRED, od té doby, co začal hledat, se číslo „postupně posouvá“ nahoru.
Welsh má probíhající projekt, který monitoruje, jak zpravodajské kanály přistupují k hlavním agentům AI. „Mezi vydavateli zpráv se objevily rozdíly v tom, zda chtějí nebo nechtějí tyto roboty blokovat,“ říká. „Nemám odpověď na to, proč se každá zpravodajská organizace rozhodla. Je zřejmé, že můžeme číst o mnoha z nich, kteří uzavírají licenční smlouvy, kde jsou placeni výměnou za to, že pustí roboty dovnitř – možná je to jeden z faktorů.“
Minulý rok The New York Times uvedl, že se Apple pokoušel uzavřít s vydavateli dohody o umělé inteligenci. Od té doby konkurenti jako OpenAI a Perplexity oznámili partnerství s různými zpravodajskými servery, sociálními platformami a dalšími oblíbenými weby. „Mnoho největších vydavatelů na světě jednoznačně zaujímá strategický přístup,“ říká zakladatel AI Originality Jon Gillham. „Myslím, že v některých případech je v tom obsažena obchodní strategie – například zadržování dat, dokud nebude uzavřena dohoda o partnerství.“
Existují určité důkazy podporující Gillhamovu teorii. Webové stránky Condé Nast například blokovaly webové prohledávače OpenAI. Poté, co společnost minulý týden oznámila partnerství s OpenAI, odblokovala firemní roboty. (Condé Nast odmítl komentovat záznam tohoto příběhu.) Mezitím mluvčí Buzzfeed Juliana Clifton řekla WIRED, že společnost, která v současnosti blokuje Applebot-Extended, zařazuje každého robota procházení webu s umělou inteligencí, kterého dokáže identifikovat, na seznam blokovaných, pokud není jeho vlastníkem. uzavřela partnerství – obvykle placené – se společností, která také vlastní Huffington Post.
Protože robots.txt je třeba upravovat ručně a existuje tolik nových agentů AI, kteří debutují, může být obtížné udržovat aktuální seznam blokovaných. „Lidé prostě nevědí, co blokovat,“ říká zakladatel Dark Visitors Gavin King. Dark Visitors nabízí službu freemium, která automaticky aktualizuje soubor robots.txt na klientském webu, a King říká, že vydavatelé tvoří velkou část jeho klientů kvůli obavám z autorských práv.
Robots.txt se může zdát jako tajemné území webmasterů – ale vzhledem k jeho mimořádné důležitosti pro digitální vydavatele ve věku umělé inteligence je nyní doménou mediálních manažerů. WIRED se dozvěděl, že dva generální ředitelé velkých mediálních společností přímo rozhodují, které roboty zablokovat.
Některé prodejny výslovně poznamenaly, že blokují nástroje AI scraping, protože v současné době nemají partnerství se svými vlastníky. „Blokujeme Applebot-Extended ve všech vlastnostech Vox Media, stejně jako jsme to udělali s mnoha dalšími nástroji AI scraping, když nemáme obchodní dohodu s druhou stranou,“ říká Lauren Starke, senior viceprezidentka Vox Media. komunikace. „Věříme v ochranu hodnoty naší publikované práce.“
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com