Vlajková loď modelu Gemini AI od Googlu dostává zásadní upgrade

Model Gemini AI od Alphabetu je veřejný teprve dva měsíce, ale společnost již vydává upgrade. Gemini Pro 1.5, který je dnes uveden na trh s omezenou dostupností, je výkonnější než jeho předchůdce a dokáže zpracovat obrovské množství textu, videa nebo zvuku najednou.

Demis Hassabis, generální ředitel společnosti Google DeepMind, která nový model vyvinula, porovnává jeho obrovskou kapacitu pro vstup s pracovní pamětí člověka, což před lety zkoumal jako neurovědec. „Skvělá věc na těchto základních funkcích je, že odemykají jakési doplňkové věci, které model může dělat,“ říká.

V ukázce Google DeepMind ukázal Gemini Pro 1.5 analyzující 402stránkový PDF přepis komunikace Apollo 11. Model byl požádán, aby našel vtipné části a zdůraznil několik momentů, jako když astronauti řekli, že zpoždění komunikace bylo způsobeno přerušením sendviče. Další ukázka ukázala, že model odpovídá na otázky o konkrétních akcích ve filmu Buster Keaton. Předchozí verze Gemini mohla na tyto otázky odpovědět pouze pro mnohem kratší množství textu nebo videa. Google doufá, že nové možnosti umožní vývojářům vytvářet nové druhy aplikací nad modelem.

„Je to opravdu kouzelné, jak model provádí tento druh uvažování na každé jednotlivé stránce, v každém jednotlivém slově,“ říká Oriol Vinyals, vědecký pracovník Google DeepMind.

Google říká, že Gemini Pro 1.5 dokáže zpracovat a porozumět hodině videa, 11 hodinám zvuku, 700 000 slovům nebo 30 000 řádkům kódu najednou – několikrát více než jiné modely umělé inteligence, včetně OpenAI GPT-4, který pohání ChatGPT. Technické detaily za tímto počinem společnost nezveřejnila. Hassabis říká, že jedním z použití modelů, které dokážou zpracovat velké množství textu, testované výzkumníky z Google DeepMind, je identifikovat důležité poznatky v diskusích Discord s tisíci zpráv.

Gemini Pro 1.5 je také schopnější – alespoň pro svou velikost – měřeno skóre modelu v několika oblíbených benchmarcích. Nový model využívá techniku, kterou dříve vynalezli výzkumníci společnosti Google, aby vytlačila vyšší výkon bez nutnosti většího výpočetního výkonu. Technika, nazývaná směs expertů, selektivně aktivuje části architektury modelu, které se nejlépe hodí k řešení daného úkolu, což zefektivňuje trénink a běh.

Google říká, že Gemini Pro 1.5 je stejně schopný jako jeho nejvýkonnější nabídka, Gemini Ultra, v mnoha úkolech, přestože jde o výrazně menší model. Hassabis říká, že neexistuje žádný důvod, proč by stejná technika použitá ke zlepšení Gemini Pro nemohla být použita k posílení Gemini Ultra.

Upgradovaná verze Gemini Pro bude zpřístupněna vývojářům prostřednictvím AI Studio, sandboxu pro testování schopností modelu, a omezenému počtu vývojářů prostřednictvím cloudové platformy Google Vertex AI API. Zatím neexistuje žádné datum pro obecné vydání.

Google také spouští nové nástroje, které pomohou vývojářům používat Gemini ve svých aplikacích, včetně nových způsobů, jak využít schopnost modelů analyzovat video a zvuk. Společnost také uvedla, že do svého webového kódovacího nástroje Project IDX přidává nové funkce poháněné Gemini, včetně způsobů, jak AI ladit a testovat kód.

Rychlost upgradu Gemini je známkou zuřivého závodu AI, který odstartoval úspěch ChatGPT. Začátkem tohoto týdne OpenAI oznámilo, že dává ChatGPT možnost zapamatovat si užitečné informace z konverzací po dlouhou dobu. Minulý týden Google změnil značku svého chatbota Barda a oznámil, že Gemini Ultra bude k dispozici s placeným předplatným.

Zběsilé tempo pokroku v generativní umělé inteligenci je v rozporu s obavami o rizika, která by tato technologie mohla představovat. Google říká, že prošel rozsáhlým testováním Gemini Pro 1.5 a že poskytování omezeného přístupu nabízí způsob, jak získat zpětnou vazbu o potenciálních rizicích. Společnost říká, že také poskytla výzkumníkům z britského AI Safety Institute přístup ke svým nejvýkonnějším modelům, aby je mohli otestovat.

Hassabis říká, že v následujících měsících lze očekávat další pokroky. „Toto je nová kadence,“ říká, „snažím se přinést z jakési mentality startupů.“

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com