Cloudová divize Amazonu zahájila vyšetřování Perplexity AI. Otázkou je, zda spouštění AI vyhledávání porušuje pravidla Amazon Web Services tím, že škrábe weby, které se mu v tom pokoušely zabránit, jak zjistil WIRED.
Mluvčí AWS, který hovořil s WIRED pod podmínkou, že nebudou jmenováni, potvrdil vyšetřování společnosti Perplexity. WIRED již dříve zjistil, že startup – který má podporu z rodinného fondu Jeffa Bezose, Nvidia a nedávno byl oceněn na 3 miliardy dolarů – se zdá, že spoléhá na obsah zkopírovaných webů, které měly zakázaný přístup prostřednictvím protokolu Robots Exclusion Protocol, běžného webového standardu. . I když protokol pro vyloučení robotů není právně závazný, podmínky služby obecně ano.
Robots Exclusion Protocol je desítky let starý webový standard, který zahrnuje umístění souboru ve formátu prostého textu (např. wired.com/robots.txt) na doménu, který označuje, ke kterým stránkám by automatické roboty a prohledávače neměly přistupovat. Zatímco společnosti, které používají škrabky, se mohou rozhodnout tento protokol ignorovat, většina jej tradičně respektuje. Mluvčí Amazonu řekl WIRED, že zákazníci AWS musí při procházení webových stránek dodržovat standard robots.txt.
„Smluvní podmínky společnosti AWS zakazují zákazníkům používat naše služby k jakékoli nezákonné činnosti a naši zákazníci jsou zodpovědní za dodržování našich podmínek a všech platných zákonů,“ uvedl mluvčí v prohlášení.
Kontrola praktik Perplexity následuje po zprávě Forbes z 11. června, která startup obvinila z krádeže alespoň jednoho z jeho článků. Vyšetřování WIRED tuto praxi potvrdilo a nalezlo další důkazy o zneužívání a plagiátorství ze strany systémů spojených s vyhledávacím chatbotem Perplexity poháněným umělou inteligencí. Inženýři společnosti Condé Nast, mateřské společnosti WIRED, blokují prohledávač Perplexity na všech svých webových stránkách pomocí souboru robots.txt. WIRED však zjistil, že společnost má přístup k serveru pomocí nezveřejněné IP adresy – 44.221.181.252 – která za poslední tři měsíce navštívila nemovitosti Condé Nast nejméně stokrát, zřejmě proto, aby seškrábala webové stránky Condé Nast.
Zdá se, že stroj spojený s Perplexity je zapojen do rozsáhlého procházení zpravodajských webů, které zakazují robotům přístup k jeho obsahu. Mluvčí Guardian, Forbes a The New York Times také uvedli, že IP adresu na jejích serverech detekovali několikrát.
WIRED vysledoval IP adresu k virtuálnímu stroji známému jako instance Elastic Compute Cloud (EC2) hostovaném na AWS, která zahájila vyšetřování poté, co jsme se zeptali, zda používání infrastruktury AWS ke skartování webů, které to zakazují, porušuje smluvní podmínky společnosti.
Minulý týden generální ředitel společnosti Perplexity Aravind Srinivas reagoval na vyšetřování společnosti WIRED nejprve tím, že otázky, které jsme společnosti položili, „odrážejí hluboké a zásadní nepochopení toho, jak společnost Perplexity a internet fungují“. Srinivas pak sdělil Fast Company, že tajná IP adresa WIRED pozorovala škrábání webových stránek Condé Nast a testovací web, který jsme vytvořili, provozovala společnost třetí strany, která provádí služby procházení a indexování webu. Odmítl jmenovat společnost s odkazem na dohodu o mlčenlivosti. Na otázku, zda by třetí straně řekl, aby přestala procházet WIRED, Srinivas odpověděl „je to komplikované“.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com