Nové schopnosti velkých jazykových modelů jsou zázrakem







Původní verze z tento příběh objevil se v Časopis Quanta.

Před dvěma lety v projektu nazvaném Beyond the Imitation Game benchmark neboli BIG-bench sestavilo 450 výzkumníků seznam 204 úloh určených k testování schopností velkých jazykových modelů, které pohánějí chatboty jako ChatGPT. U většiny úkolů se výkon zlepšoval předvídatelně a plynule, jak se modely zvětšovaly – čím větší model, tím lepší. Ale u jiných úkolů nebyl skok ve schopnostech hladký. Výkon se chvíli držel blízko nuly, pak výkon vyskočil. Jiné studie zjistily podobné skoky ve schopnostech.

Autoři to popsali jako „průlomové“ chování; jiní výzkumníci to přirovnali k fázovému přechodu ve fyzice, jako když kapalná voda zmrzne na led. V článku zveřejněném v srpnu 2022 výzkumníci poznamenali, že toto chování je nejen překvapivé, ale nepředvídatelné, a že by mělo informovat o vyvíjejících se konverzacích o bezpečnosti, potenciálu a riziku umělé inteligence. Schopnosti nazvali „emergentní“, což je slovo, které popisuje kolektivní chování, které se objeví, až když systém dosáhne vysoké úrovně složitosti.

Ale věci nemusí být tak jednoduché. Nová studie trojice výzkumníků ze Stanfordské univerzity předpokládá, že náhlý výskyt těchto schopností je jen důsledkem toho, jak výzkumníci měří výkon LLM. Schopnosti, tvrdí, nejsou ani nepředvídatelné, ani náhlé. „Přechod je mnohem předvídatelnější, než si lidé připisují,“ řekl Sanmi Koyejo, počítačový vědec ze Stanfordu a hlavní autor článku. „Silná tvrzení o vzniku mají co do činění se způsobem, jakým se rozhodneme měřit, stejně jako s tím, co dělají modely.“

Toto chování teprve nyní vidíme a studujeme kvůli tomu, jak velké se tyto modely staly. Velké jazykové modely se trénují analýzou obrovských datových souborů textu – slov z online zdrojů včetně knih, vyhledávání na webu a Wikipedie – a hledáním vazeb mezi slovy, která se často vyskytují společně. Velikost se měří pomocí parametrů, zhruba analogicky ke všem způsobům, jakými lze slova spojovat. Čím více parametrů, tím více spojení může LLM najít. GPT-2 měl 1,5 miliardy parametrů, zatímco GPT-3.5, LLM, který pohání ChatGPT, používá 350 miliard. GPT-4, který debutoval v březnu 2023 a nyní je základem Microsoft Copilot, údajně používá 1,75 bilionu.

Tento rychlý růst přinesl ohromující nárůst výkonu a efektivity a nikdo nezpochybňuje, že dostatečně velké LLM dokážou plnit úkoly, které menší modely nedokážou, včetně těch, pro které nebyly vyškoleny. Trio ve Stanfordu, kteří vrhli vznik jako „přelud“ uznávají, že LLM se stávají efektivnějšími, když se zvětšují; ve skutečnosti by větší složitost větších modelů měla umožnit lepší řešení složitějších a různorodých problémů. Argumentují však tím, že zda toto zlepšení vypadá hladce a předvídatelně nebo zubaté a ostré, vyplývá z výběru metriky – nebo dokonce z nedostatku testovacích příkladů – spíše než z vnitřního fungování modelu.





Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com