Gemini od Googlu je skutečným začátkem rozmachu generativní umělé inteligence

Historie umělé inteligence byla přerušována obdobími takzvané „AI zimy“, kdy se zdálo, že se technologie dostala do slepé uličky a finance vyschly. Každý z nich byl doprovázen proklamacemi, že vyrobit stroje skutečně inteligentními je pro lidi příliš těžké na to, aby na to přišli.

Vydání Gemini od Googlu, o kterém se tvrdí, že jde o zásadně nový druh modelu umělé inteligence a dosud nejvýkonnější společnost, naznačuje, že nová zima s umělou inteligencí v dohledné době nepřijde. Ve skutečnosti, ačkoli 12 měsíců od spuštění ChatGPT bylo pro AI rokem praporů, existuje dobrý důvod si myslet, že současný boom AI teprve začíná.

OpenAI neměla velká očekávání, když v listopadu 2022 spustila „low key research preview“ nazvanou ChatGPT. Šlo pouze o test nového rozhraní pro její text-generující velké jazykové modely (LLM). Ale schopnost chatbota dělat tak širokou škálu věcí, od syntézy esejí a poezie až po zodpovězení problémů s kódováním, zapůsobila a znervóznila mnoho lidí a rozpálila technologický průmysl. Když OpenAI přidal svůj nový GPT-4 LLM do ChatGPT, někteří experti byli tak vyděšení, že prosili společnost, aby zpomalila.

Důkazů o tom, že by někdo uposlechl toto poplašné volání, bylo již skrovné. Nyní je nepředstavitelné, že Google zvýšil ante – a také možná změnil pravidla hry – oznámením Gemini.

Google již dříve v tomto roce přispěchal s přímou odpovědí na ChatGPT v podobě Barda a konečně spustil technologii chatbotů LLM, kterou vyvinul dříve než OpenAI, ale rozhodl se zachovat soukromí. S Gemini tvrdí, že otevřela novou éru, která přesahuje LLM primárně ukotvené na textu – což potenciálně připravilo půdu pro nové kolo produktů AI výrazně odlišných od těch, které umožňuje ChatGPT.

Google nazývá Gemini „nativně multimodálním“ modelem, což znamená, že se může učit z dat nad rámec pouhého textu a také shromažďovat poznatky ze zvuku, videa a obrázků. ChatGPT ukazuje, jak se modely umělé inteligence mohou dozvědět působivé množství o světě, pokud jim poskytne dostatek textu. A někteří výzkumníci AI tvrdili, že pouhé zvětšení jazykových modelů by zvýšilo jejich schopnosti natolik, že by konkurovaly schopnostem lidí.

Ale o fyzické realitě se můžete dozvědět jen tolik prostřednictvím filtru textu, který o ní lidé napsali, a těžko odstranitelných omezení LLM jako GPT-4 – jako jsou halucinační informace, špatné uvažování a jejich podivné zabezpečení. nedostatky – zdá se, že naznačují, že škálování stávající technologie má své limity.

Před včerejším oznámením Gemini WIRED hovořil s Demisem Hassabisem, výkonným ředitelem, který vedl vývoj Gemini a jehož předchozí úspěchy zahrnují vedení týmu, který vyvinul nadlidského Go-playing bot AlphaGo. O Gemini byl předvídatelně nadšený a tvrdil, že zavádí nové funkce, díky nimž budou produkty Google vynikat. Hassabis ale také řekl, že k poskytování systémů umělé inteligence, které dokážou porozumět světu způsobem, který dnešní chatboti nedokážou, bude nutné LLM kombinovat s dalšími technikami umělé inteligence.

Hassabis je v agresivní soutěži s OpenAI, ale zdá se, že soupeři souhlasí s tím, že jsou zapotřebí radikální nové přístupy. Tajemný projekt probíhající v OpenAI, nazvaný Q*, naznačuje, že společnost také zkoumá nápady, které zahrnují víc než jen rozšiřování systémů, jako je GPT-4.

To je v souladu s dubnovými poznámkami generálního ředitele OpenAI Sama Altmana z MIT, když jasně řekl, že navzdory úspěchu ChatGPT potřebuje oblast umělé inteligence nový velký nápad, aby dosáhla významného dalšího pokroku. „Myslím, že jsme na konci éry, kdy to budou tyto, jako obří, obří modely,“ řekl Altman. „Vylepšíme je jinými způsoby.“

Google možná právě předvedl přístup, který může jít nad rámec ChatGPT. Ale možná nejpozoruhodnější zprávou ze spuštění Gemini je, že Google je nastaven na cestu k něčemu významnějšímu, než jsou dnešní chatboti – stejně jako se zdá být OpenAI.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com