Vzpomeňte si na jakékoli představitelné téma, které se vágně vztahuje k výchově dětí, a pravděpodobně o něm existuje příspěvek na Mumsnet, dlouhodobém, nesmírně populárním a spory podněcujícím fóru pro matky se sídlem ve Spojeném království pro rodičovství. Během své více než dvou desetiletí dlouhé historie nashromáždila Mumsnet archiv více než šesti miliard slov napsaných její vysoce angažovanou uživatelskou základnou na témata, jako jsou špinavé plenky a líní manželé. (Nemluvě o bláznivém žvanění o delfínech.)
Letos na jaře, poté, co Mumsnet zjistil, že společnosti s umělou inteligencí škrábou její data, společnost říká, že se rozhodla pokusit se uzavřít licenční smlouvy s některými hlavními hráči v tomto prostoru, včetně OpenAI, která zpočátku vyjádřila ochotu prozkoumat dohodu poté, co Mumsnet poprvé dosáhl ven. Poté, co se rozhovory s OpenAI rozpadly, Mumsnet v červenci oznámil svůj záměr podniknout právní kroky.
Podle Mumsnetu během těchto prvních rozhovorů vedoucí strategického partnerství OpenAI společnosti řekl, že datové sady přes 1 miliardu slov byly pro giganta AI zajímavé. Vedení Mumsnet bylo nadšené. „Strávili jsme s nimi docela dost času tam a zpět,“ říká zakladatel a generální ředitel Mumsnet Justine Roberts pro WIRED. „Museli jsme podepsat několik NDA a oni od nás chtěli spoustu informací.“
O více než měsíc později však OpenAI řekl Mumsnet, že společnost v té době již neměla zájem o partnerství, podle e-mailové výměny, kterou přezkoumal WIRED. Když byl dotázán proč, pracovník OpenAI charakterizoval datovou sadu Mumsnet o 6 miliardách slov jako příliš malou na to, aby zaručovala licenční ujednání, říká Roberts. Poznamenali také, že OpenAI se primárně zajímá o velké datové sady, ke kterým veřejnost již nemá přístup online, a že chce datové sady, které zachycují širokou lidskou zkušenost.
Tento názor společnost zopakovala, když požádala WIRED o komentář. „Usilujeme o partnerství pro rozsáhlé soubory dat, které odrážejí lidskou společnost, a neusilujeme o partnerství pouze pro veřejně dostupné informace,“ říká mluvčí OpenAI Kayla Wood. „Podporujeme výběr vydavatelů a tvůrců a nabízíme jim způsoby, jak vyjádřit své preference ohledně toho, jak jejich weby a obsah spolupracují s umělou inteligencí ve výsledcích vyhledávání, a trénovat generativní modely základů umělé inteligence.“
Roberts říká, že byla tímto vývojem „podrážděná“. Pamatuje si, že OpenAI se nejprve zdálo, že se o Mumsnet obzvláště zajímala, protože na platformě byl obsah psaný převážně ženami. „Jsou to velmi kvalitní konverzační data,“ říká. „Je to z 90 procent ženská konverzace, což je docela neobvyklé.“
OpenAI v minulém roce uzavřela řadu licenčních smluv s mediálními výstupy a platformami a uzavřela smlouvy s Vox Media, AtlantikAxel Springer, Time a mateřská společnost WIRED Condé Nast, stejně jako platformy plné obsahu vytvářeného uživateli, jako je Reddit. (Automattic, vlastník WordPress.com a Tumblr, byl také údajně v licenčním jednání na začátku tohoto roku.) Protože podrobnosti o těchto obchodech nebyly odhaleny, není jasné, jaká je velikost jejich příslušných korpusů.
Když se WIRED zeptal na velikost datových sad, které bude zvažovat pro komerční licencování, OpenAI odmítlo tyto informace sdílet. Mluvčí Kayla Wood však zdůrazňuje, že partnerství společnosti s vydavateli se „zaměřují na zobrazování jejich obsahu v našich produktech a zvyšování návštěvnosti“.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com