Destilace může zmenšit a levnější modely AI







Původní verze z tento příběh objevil se v Quanta Magazine.

Čínská společnost AI Deepseek vydala chatbot začátkem tohoto roku s názvem R1, což přitahovalo obrovské množství pozornosti. Většina z toho se zaměřila na skutečnost, že relativně malá a neznámá společnost uvedla, že vybudovala chatbot, který soupeřil s výkonem lidí z nejslavnějších společností AI na světě, ale využíval zlomek počítačové síly a nákladů. V důsledku toho se akcie mnoha západních technologických společností propadly; NVIDIA, která prodává čipy, které provozují vedoucí modely AI, ztratila více hodnoty akcií za jeden den než jakákoli společnost v historii.

Některé z této pozornosti zahrnovaly prvek obvinění. Zdroje tvrdily, že Deepseek získal bez povolení znalosti z proprietárního modelu Open Open pomocí techniky známé jako destilace. Většina zpravodajských zpravodajských zpravodajství tuto možnost zaráží jako šok pro průmysl AI, což znamená, že Deepseek objevil nový a efektivnější způsob budování AI.

Destilace, která se také nazývá destilace znalostí, je však široce používaným nástrojem v AI, předmětem výzkumu v oblasti informatiky, který se vrací deset let a nástroj, který velké technologické společnosti používají na svých vlastních modelech. „Destilace je jedním z nejdůležitějších nástrojů, které společnosti dnes mají, aby modely zefektivnily,“ řekl výzkumný pracovník Enric Boix-Adsera, který studuje destilaci na Whartonské škole University of Pennsylvania.

Temné znalosti

Myšlenka na destilaci začala dokumentem z roku 2015 tří vědců na Googlu, včetně Geoffrey Hinton, tzv. Kmotr AI a Nobelovy laureát 2024. V té době vědci často provozovali soubory modelů – „mnoho modelů přilepených k sobě,“ řekl Oriol Vinyals, hlavní vědec společnosti Google Deepmind a jeden z autorů papíru – ke zlepšení jejich výkonu. „Ale bylo neuvěřitelně těžkopádné a drahé provozovat všechny modely paralelně,“ řekl Vinyals. „Zajímali jsme se s myšlenkou destilace na jediný model.“

Vědci si mysleli, že by mohli dosáhnout pokroku tím, že se zabývají pozoruhodným slabým bodem v algoritmech strojového učení: všechny špatné odpovědi byly považovány za stejně špatné, bez ohledu na to, jak špatné by mohly být. Například v modelu klasifikace obrazu bylo „matoucí psa s liškou penalizováno stejným způsobem jako matoucí psa s pizzou,“ řekl Vinyals. Vědci měli podezření, že modely souborů obsahovaly informace o tom, které nesprávné odpovědi byly méně špatné než ostatní. Možná menší „studentský“ model by mohl použít informace z velkého modelu „učitele“, aby rychleji pochopil kategorie, do kterých měl třídit obrázky. Hinton nazval toto „temné znalosti“, vyvolával analogii s kosmologickou temnou hmotou.

Po diskusi o této možnosti s Hintonem vyvinuli Vinyals způsob, jak přimět velký učitelský model, aby předal další informace o kategoriích obrázků na menší studentský model. Klíčem bylo navádění na „měkké cíle“ v modelu učitele-kde každé možnosti přiřazuje pravděpodobnosti, spíše než na to, že to odpovídá. Jeden model například vypočítal, že existuje 30 % šance, že obraz ukázal psa, 20 procent, že ukázal kočku, 5 procent, že ukázal krávu a 0,5 procenta, že ukázal auto. Použitím těchto pravděpodobností učitel učitele účinně odhalil studentovi, že psi jsou docela podobné kočkám, ne tak odlišné od kráv a zcela odlišné od automobilů. Vědci zjistili, že tato informace by studentovi pomohla naučit se efektivněji identifikovat obrázky psů, koček, krav a automobilů. Velký, komplikovaný model by mohl být snížen na štíhlejší model s téměř jakoukoli ztrátou přesnosti.

Výbušný růst

Myšlenka nebyl okamžitý zásah. Příspěvek byl z konference odmítnut a Vinyals, odrazován, se obrátil na další témata. Destilace však dorazila na důležitý okamžik. Kolem této doby inženýři zjistili, že čím více tréninkových údajů se přiměli do neuronových sítí, tím efektivnější se tyto sítě staly. Velikost modelů brzy explodovala, stejně jako jejich schopnosti, ale náklady na jejich spuštění vyšplhaly v kroku s jejich velikostí.

Mnoho vědců se obrátilo na destilaci jako způsob, jak vytvořit menší modely. V roce 2018 například výzkumníci Google představili výkonný jazykový model s názvem Bert, který společnost brzy začala používat, aby pomohla analyzovat miliardy vyhledávání na webu. Bert však byl velký a nákladný, takže příští rok jiní vývojáři destilovali menší verzi rozumně pojmenovanou Distilbert, která se široce používala v podnikání a výzkumu. Destilace se postupně stala všudypřítomnou a nyní je nabízena jako služba společností jako Google, OpenAI a Amazon. Původní destilační papír, který stále publikoval pouze na serveru ARXIV.ORG PRIPRINT, byl nyní citován více než 25 000krát.

Vzhledem k tomu, že destilace vyžaduje přístup k vnitřům modelu učitele, není možné, aby třetí strana plížila údaje o destilaci z modelu uzavřeného zdroje, jako je OpenAI O1, jak se předpokládalo, že to udělal Deepseek. To znamená, že studentský model by se mohl stále trochu učit z modelu učitele jen díky vyzvání učitele s určitými otázkami a použít odpovědi na trénink svých vlastních modelů – téměř sokratický přístup k destilaci.

Mezitím jiní vědci nadále hledají nové aplikace. V lednu Laboratoř Novasky v UC Berkeley ukázala, že destilace funguje dobře pro modely tréninkového řetězce promyšlených důvodů, které používají vícestupňové „myšlení“ k lepší odpovědi na komplikované otázky. Laboratoř říká, že jeho plně open source Sky-T1 model stojí méně než 450 $ na trénink a dosáhl podobných výsledků jako mnohem větší model s otevřeným zdrojovým kódem. „Byli jsme opravdu překvapeni tím, jak dobře fungovala destilace v tomto prostředí,“ řekl Dacheng Li, doktorský student Berkeley a spolu-studenta v týmu Novasky. „Destilace je v AI základní technikou.“


Původní příběh Přetištěno se svolením z Quanta Magazine, redakčně nezávislá publikace Simons Foundation jehož posláním je posílit veřejné porozumění vědě tím, že pokryje vývoj výzkumu a trendy v matematice a fyzické a životních vědách.





Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com

Holky na privát z celé ČR najdete na NaPrivat.net Recenze na sexuální služby v ČR - Noření.cz