OpenAI oznamuje model, který „odůvodňuje“ problémy a nazývá jej „nové paradigma“

OpenAI udělalo poslední velký průlom v umělé inteligenci zvětšením svých modelů do závratných rozměrů, když loni představilo GPT-4. Společnost dnes oznámila nový pokrok, který signalizuje posun v přístupu – model, který dokáže logicky „zdůvodnit“ mnoho obtížných problémů a je výrazně chytřejší než stávající AI bez většího rozšíření.

Nový model s názvem OpenAI-o1 dokáže vyřešit problémy, které brání stávajícím modelům umělé inteligence, včetně nejvýkonnějšího existujícího modelu OpenAI, GPT-4o. Spíše než shrnout odpověď v jednom kroku, jak to běžně dělá velký jazykový model, zdůvodní problém a efektivně přemýšlí nahlas, jak by člověk mohl, než dospěje ke správnému výsledku.

„Toto považujeme za nové paradigma v těchto modelech,“ říká Mira Murati, technologický ředitel OpenAI, WIRED. „Je mnohem lepší při řešení velmi složitých úloh uvažování.“

Nový model dostal kódové označení Strawberry v rámci OpenAI a není nástupcem GPT-4o, ale spíše jeho doplňkem, říká společnost.

Murati říká, že OpenAI v současné době staví svůj další hlavní model, GPT-5, který bude podstatně větší než jeho předchůdce. Ale zatímco společnost stále věří, že škálování pomůže vymačkat nové schopnosti z AI, GPT-5 pravděpodobně také bude obsahovat dnes představenou technologii uvažování. „Existují dvě paradigmata,“ říká Murati. „Škálovací paradigma a toto nové paradigma. Očekáváme, že je dáme dohromady.“

LLM obvykle kouzlí své odpovědi z obrovských neuronových sítí, které dodávají obrovské množství tréninkových dat. Mohou vykazovat pozoruhodné lingvistické a logické schopnosti, ale tradičně se potýkají s překvapivě jednoduchými problémy, jako jsou základní matematické otázky, které zahrnují uvažování.

Murati říká, že OpenAI-o1 používá posilovací učení, které zahrnuje poskytování pozitivní zpětné vazby modelu, když dostane správné odpovědi, a negativní zpětné vazby, když ne, aby se zlepšil jeho proces uvažování. „Model zbystří své myšlení a vyladí strategie, které používá, aby se dostal k odpovědi,“ říká. Posílení učení umožnilo počítačům hrát hry s nadlidskými dovednostmi a dělat užitečné úkoly, jako je navrhování počítačových čipů. Tato technika je také klíčovou složkou pro přeměnu LLM na užitečného a dobře se chovajícího chatbota.

Mark Chen, viceprezident pro výzkum v OpenAI, předvedl nový model WIRED a použil jej k vyřešení několika problémů, které jeho předchozí model, GPT-4o, nedokázal. Ty zahrnovaly pokročilou chemickou otázku a následující matematickou hádanku, která ohromí hlavu: „Princezna je tak stará, jak bude princ, když bude princezna dvakrát tak stará, než byl princ, když byl její věk poloviční než jejich současný věk. Jaký je věk prince a princezny?“ (Správná odpověď je, že princi je 30 a princezně 40).

„The [new] Model se učí myslet sám za sebe, spíše než se snažit napodobovat způsob, jakým by lidé mysleli,“ jak to dělá konvenční LLM, říká Chen.

OpenAI říká, že jeho nový model funguje výrazně lépe v řadě sad problémů, včetně těch zaměřených na kódování, matematiku, fyziku, biologii a chemii. Na American Invitational Mathematics Examination (AIME), testu pro studenty matematiky, GPT-4o vyřešil v průměru 12 procent problémů, zatímco o1 měl podle společnosti 83 procent správně.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com