V roce 2023 OpenAI řekl britskému parlamentu, že je „nemožné“ trénovat přední modely umělé inteligence bez použití materiálů chráněných autorským právem. Je to populární postoj ve světě umělé inteligence, kde OpenAI a další přední hráči použili materiály nashromážděné online k výcviku modelů pohánějících chatboty a generátory obrázků, což spustilo vlnu soudních sporů o porušení autorských práv.
Dvě středeční oznámení nabízejí důkaz, že velké jazykové modely lze ve skutečnosti trénovat bez použití materiálů chráněných autorským právem bez povolení.
Skupina výzkumníků podporovaná francouzskou vládou zveřejnila to, co je považováno za největší školicí datovou sadu AI složenou výhradně z textu, který je ve veřejné doméně. A nezisková organizace Fairly Trained oznámila, že udělila svou první certifikaci pro velký jazykový model vytvořený bez porušení autorských práv, což ukazuje, že technologie, jako je ChatGPT, může být postavena jiným způsobem, než je sporná norma průmyslu AI.
„Neexistuje žádný zásadní důvod, proč by někdo nemohl trénovat LLM spravedlivě,“ říká Ed Newton-Rex, generální ředitel společnosti Fairly Trained. Neziskovou organizaci založil v lednu 2024 poté, co opustil svou výkonnou roli v startupu Stability AI pro generování obrázků, protože nesouhlasil s její politikou škrábání obsahu bez povolení.
Fairly Trained nabízí certifikaci společnostem, které chtějí prokázat, že své modely umělé inteligence trénovaly na datech, která buď vlastní, mají licenci nebo jsou ve veřejné doméně. Když nezisková organizace spustila, někteří kritici poukázali na to, že dosud neidentifikovala velký jazykový model, který by tyto požadavky splňoval.
Společnost Fairly Trained dnes oznámila, že certifikovala svůj první velký jazykový model. Jmenuje se KL3M a byl vyvinut chicagským začínajícím právním technologickým poradenským podnikem 273 Ventures s využitím kurátorského školícího souboru právních, finančních a regulačních dokumentů.
Spoluzakladatelka společnosti Jillian Bommarito říká, že rozhodnutí školit KL3M tímto způsobem vyplynulo z klientů společnosti, kteří „neradi riskují“, jako jsou advokátní kanceláře. „Zajímají se o původ a potřebují vědět, že výstup není založen na poskvrněných datech,“ říká. „Nespoléháme se na fair use.“ Klienti měli zájem používat generativní AI pro úkoly, jako je sumarizace právních dokumentů a sepisování smluv, ale nechtěli se nechat zatáhnout do soudních sporů o duševní vlastnictví, jako tomu bylo u OpenAI, Stability AI a dalších.
Bommarito říká, že 273 Ventures předtím nepracovalo na velkém jazykovém modelu, ale rozhodlo se jej trénovat jako experiment. „Náš test, abychom zjistili, zda je to vůbec možné,“ říká. Společnost vytvořila vlastní školicí datovou sadu Kelvin Legal DataPack, která obsahuje tisíce právních dokumentů zkontrolovaných v souladu s autorským zákonem.
Ačkoli je datová sada malá (kolem 350 miliard tokenů nebo jednotek dat) ve srovnání s daty zkompilovanými OpenAI a dalšími, kteří masově narušili internet, Bommarito říká, že model KL3M fungoval mnohem lépe, než se očekávalo, což přisuzuje pečlivosti data byla předem prověřena. „Mít čistá a vysoce kvalitní data může znamenat, že nebudete muset dělat model tak velký,“ říká. Spravování datové sady může pomoci vytvořit hotový model AI specializovaný na úkol, pro který je určen. 273 Ventures nyní nabízí místa na čekací listině klientům, kteří si chtějí zakoupit přístup k těmto datům.
Čistý list
Společnosti, které chtějí napodobit KL3M, mohou mít v budoucnu další pomoc ve formě volně dostupných datových sad bez porušení. Ve středu výzkumníci zveřejnili to, o čem tvrdí, že jde o největší dostupnou datovou sadu AI pro jazykové modely složenou čistě z veřejného obsahu. Common Corpus, jak se tomu říká, je sbírka textu zhruba stejné velikosti jako data používaná k trénování modelu generování textu GPT-3 OpenAI a byla odeslána na open source platformu AI Hugging Face.
Soubor dat byl vytvořen ze zdrojů, jako jsou veřejné noviny digitalizované Kongresovou knihovnou USA a Francouzskou národní knihovnou. Pierre-Carl Langlais, koordinátor projektu Common Corpus, to nazývá „dostatečně velký korpus na to, aby trénoval nejmodernější LLM“. V žargonu velké AI obsahuje datová sada 500 milionů tokenů, o nejschopnějším modelu OpenAI se všeobecně věří, že byl trénován na několika bilionech.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com