Nový model AI Deepseek vyvolává šok, úctu a otázky amerických konkurentů

Skutečná cena vývoje nových modelů Deepseeka však zůstává neznámá, protože jedna postava citovaná v jediném výzkumném článku nemusí zachytit úplný obraz jejích nákladů. „Nevěřím, že je to 6 milionů dolarů, ale i když je to 60 milionů dolarů, je to měnič her,“ říká Umesh Padval, generální ředitel společnosti Thomvest Ventures, společnost, která investovala do společnosti Cohere a další firmy AI. „Vyvíjí tlak na ziskovost společností, které jsou zaměřeny na spotřebitelskou umělou inteligenci.“

Krátce poté, co Deepseek odhalil podrobnosti o svém nejnovějším modelu, Ghodsi z Databricks říká, že zákazníci se začali ptát, zda by jej mohli použít i základní techniky Deepseek ke snížení nákladů ve svých vlastních organizacích. Dodává, že jeden přístup zaměstnaný inženýry Deepseek, známý jako destilace, který zahrnuje použití výstupu z jednoho velkého jazykového modelu k trénování jiného modelu, je relativně levný a přímočarý.

Padval říká, že existence modelů, jako je Deepseek’s, bude v konečném důsledku prospět společnostem, které chtějí utratit méně za AI, ale říká, že mnoho firem může mít výhrady o spoléhání se na čínský model pro citlivé úkoly. Doposud alespoň jedna prominentní firma AI, zmatenost, veřejně oznámila, že používá model R1 Deepseek, ale říká, že je hostována „zcela nezávislá na Číně“.

Amjad Massad, generální ředitel společnosti Replit, startup, který poskytuje nástroje pro kódování AI, řekl Wired, že si myslí, že nejnovější modely Deepseek jsou působivé. I když stále zjistí, že model sonetu Antropic je lepší u mnoha úkolů v oblasti počítačového inženýrství, zjistil, že R1 je obzvláště dobrý v přeměně textových příkazů na kód, který lze provést na počítači. „Zkoumáme to, že to používáme zejména pro zdůvodnění agenta,“ dodává.

Nejnovější dvě nabídky Deepseek-Suepseek R1 a Deepseek R1-Zero-jsou schopny stejného druhu simulovaného uvažování jako nejpokročilejší systémy od OpenAI a Google. Všichni pracují tím, že rozdělují problémy do základních částí, aby je mohli účinněji řešit, proces, který vyžaduje značné množství dalšího školení, aby se zajistilo, že AI spolehlivě dosáhne správné odpovědi.

Příspěvek zaslaný vědci Deepseek minulý týden nastiňuje přístup, který společnost používala k vytvoření svých modelů R1, o kterých tvrdí, že na některých benchmarcích, stejně jako průkopnický model OpenAI, známý jako O1. Mezi použité taktiky Deepseek patří automatizovanější metodu pro učení, jak správně řešit problém, jakož i strategii pro přenos dovedností z větších modelů na menší.

Jedním z nejžhavějších témat spekulací o Deepseeku je hardware, který by mohl použít. Otázka je zvláště pozoruhodná, protože americká vláda zavedla v posledních několika letech řadu vývozních kontrol a dalších obchodních omezení zaměřených na omezení schopnosti Číny získávat a vyrábět špičkové čipy, které jsou potřebné pro budování pokročilé AI.

Ve výzkumném článku od srpna 2024 Deepseek uvedl, že má přístup ke shluku 10 000 čipů NVIDIA A100, které byly zařazeny do omezení amerických oznámených v říjnu 2022. V samostatném dokumentu od června téhož roku prohlásil, že dřívější model uvedl Vytvořil se s názvem DeepSeek-V2 byl vyvinut pomocí klastrů počítačových čipů NVIDIA H800, méně schopné komponenty vyvinuté NVIDIA, aby vyhovovala americkým exportním ovládacím prvkům.

Zdroj v jedné společnosti AI, který školí velké modely AI, kteří požádali o anonymní, aby chránili své profesní vztahy, odhaduje, že Deepseek pravděpodobně použil kolem 50 000 čipů NVIDIA k vytvoření své technologie.

Nvidia odmítla přímo komentovat, na který z jeho čipů se mohl Deepseek spoléhat. „Deepseek je vynikající povýšení AI,“ uvedl mluvčí NVIDIA ve svém prohlášení a dodal, že přístup odůvodnění startupu „vyžaduje značný počet GPU NVIDIA a vysoce výkonné sítě“.

Nicméně Deepseekovy modely byly postaveny, zdá se, že ukazují, že méně uzavřený přístup k rozvoji AI získává na síle. V prosinci předpověděl Clem Delangue, generální ředitel společnosti Huggingface, platforma, která pořádá modely umělé inteligence, že čínská společnost se ujme vedení v AI kvůli rychlosti inovací v modelech open source, kterou Čína do značné míry přijala. „To šlo rychleji, než jsem si myslel,“ říká.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com