Jak čínská AI Startup DeepSeek vytvořila model, který konkuruje OpenAI

Dnes je DeepSeek jednou z jediných předních AI firem v Číně, která se nespoléhá na financování od technologických gigantů jako Baidu, Alibaba nebo ByteDance.

Skupina mladých géniů, kteří touží dokázat sami sebe

Podle Lianga, když dával dohromady výzkumný tým DeepSeek, nehledal zkušené inženýry, kteří by sestavili produkt orientovaný na spotřebitele. Místo toho se zaměřil na doktorandy z předních čínských univerzit, včetně Pekingské univerzity a univerzity Tsinghua, kteří toužili dokázat sami sebe. Mnohé byly publikovány ve špičkových časopisech a získaly ocenění na mezinárodních akademických konferencích, ale podle čínské technické publikace QBitAI jim chyběly průmyslové zkušenosti.

„Naše základní technické pozice jsou většinou obsazeny lidmi, kteří absolvovali tento rok nebo za poslední rok nebo dva roky,“ řekl Liang 36Kr v roce 2023. Strategie náboru pomohla vytvořit podnikovou kulturu spolupráce, kde lidé mohli svobodně využívat rozsáhlé výpočetní zdroje, aby se mohli věnovat neortodoxní výzkumné projekty. Je to zcela odlišný způsob fungování od zavedených internetových společností v Číně, kde týmy často soutěží o zdroje. (Nedávný příklad: ByteDance obvinil bývalého stážistu – neméně držitele prestižní akademické ceny – ze sabotáže práce svých kolegů, aby nashromáždil více výpočetních zdrojů pro svůj tým.)

Liang řekl, že studenti mohou být vhodnější pro výzkum s vysokými investicemi a nízkým ziskem. „Většina lidí, když jsou mladí, se může zcela věnovat misi bez utilitárních ohledů,“ vysvětlil. Jeho nabídka pro potenciální zaměstnance je, že DeepSeek byl vytvořen, aby „řešil nejtěžší otázky na světě“.

Skutečnost, že tito mladí vědci jsou téměř výhradně vzdělaní v Číně, jim podle odborníků přidává na síle. „Tato mladší generace také ztělesňuje smysl pro patriotismus, zvláště když se pohybuje v omezeních USA a škrtí kritické hardwarové a softwarové technologie,“ vysvětluje Zhang. „Jejich odhodlání překonat tyto překážky odráží nejen osobní ambice, ale také širší odhodlání prosazovat pozici Číny jako globálního inovačního lídra.“

Inovace zrozená z krize

V říjnu 2022 začala americká vláda dávat dohromady exportní kontroly, které vážně omezovaly čínské společnosti AI v přístupu k nejmodernějším čipům, jako je H100 od Nvidie. Tento krok představoval pro DeepSeek problém. Firma začínala se zásobou 10 000 H100, ale potřebovala více, aby mohla konkurovat firmám jako OpenAI a Meta. „Problémem, kterému čelíme, nikdy nebylo financování, ale kontrola exportu pokročilých čipů,“ řekl Liang 36Kr ve druhém rozhovoru v roce 2024.

DeepSeek musel přijít s efektivnějšími metodami, jak trénovat své modely. „Optimalizovali architekturu svého modelu pomocí baterie inženýrských triků – vlastních komunikačních schémat mezi čipy, zmenšení velikosti polí pro úsporu paměti a inovativního využití přístupu mixu modelů,“ říká Wendy Chang, softwarová inženýrka, která změnila politiku. analytik z Mercator Institute for China Studies. „Mnoho z těchto přístupů nejsou nové nápady, ale jejich úspěšná kombinace k vytvoření špičkového modelu je pozoruhodný výkon.“

DeepSeek také dosáhl významného pokroku v oblasti Multi-head Latent Attention (MLA) a Mixture-of-Experts, dvou technických návrhů, díky nimž jsou modely DeepSeek nákladově efektivnější, protože vyžadují méně výpočetních zdrojů na školení. Ve skutečnosti je nejnovější model DeepSeek tak účinný, že podle výzkumné instituce Epoch AI vyžadoval k trénování jednu desetinu výpočetního výkonu srovnatelného modelu Llama 3.1 od Meta.

Ochota DeepSeek sdílet tyto inovace s veřejností jí vynesla značnou přízeň v rámci globální výzkumné komunity AI. Pro mnoho čínských společností s umělou inteligencí je vývoj modelů s otevřeným zdrojovým kódem jediným způsobem, jak dohnat své západní protějšky, protože přitahuje více uživatelů a přispěvatelů, což zase pomáhá modelům růst. „Nyní prokázali, že špičkové modely lze postavit za méně, i když stále hodně peněz, a že současné normy pro tvorbu modelů nechávají spoustu prostoru pro optimalizaci,“ říká Chang. „Určitě uvidíme v budoucnu mnohem více pokusů v tomto směru.“

Tato zpráva by mohla znamenat potíže pro současné americké kontroly exportu, které se zaměřují na vytváření úzkých míst v oblasti výpočetních zdrojů. „Stávající odhady toho, jak velký výpočetní výkon AI Čína má a čeho s tím může dosáhnout, by mohly být vyvráceny,“ říká Chang.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com