Ilya Sutskever z OpenAI má plán, jak udržet superinteligentní AI pod kontrolou

OpenAI bylo založeno na slibu vybudovat umělou inteligenci, která bude přínosem pro celé lidstvo – i když se tato umělá inteligence stane podstatně chytřejší než její tvůrci. Od loňského debutu ChatGPT a během nedávné krize správy a řízení společnosti byly její komerční ambice výraznější. Nyní společnost říká, že nová výzkumná skupina pracující na hádkách se superinteligentními AI budoucnosti začíná přinášet ovoce.

„AGI se velmi rychle blíží,“ říká Leopold Aschenbrenner, výzkumník z OpenAI zapojený do výzkumného týmu Superalignment založeného v červenci. „Uvidíme nadlidské modely, budou mít obrovské schopnosti a mohou být velmi, velmi nebezpečné, a my zatím nemáme metody, jak je ovládat.“ OpenAI uvedla, že pětinu svého dostupného výpočetního výkonu věnuje projektu Superalignment.

Výzkumný dokument, který dnes zveřejnila OpenAI, uvádí výsledky experimentů navržených tak, aby otestovaly způsob, jak nechat podřadný model umělé inteligence řídit chování mnohem chytřejšího, aniž by byl méně chytrý. Ačkoli použitá technologie zdaleka nepřesahuje flexibilitu lidí, scénář byl navržen tak, aby zastupoval budoucí dobu, kdy lidé budou muset pracovat se systémy AI inteligentnějšími, než jsou oni sami.

Výzkumníci z OpenAI zkoumali proces zvaný dohled, který se používá k vyladění systémů jako GPT-4, velkého jazykového modelu za ChatGPT, aby byl užitečnější a méně škodlivý. V současnosti to znamená, že lidé poskytují systému AI zpětnou vazbu o tom, které odpovědi jsou dobré a které špatné. Jak AI postupuje, výzkumníci zkoumají, jak automatizovat tento proces, aby ušetřili čas – ale také proto, že si myslí, že pro lidi může být nemožné poskytovat užitečnou zpětnou vazbu, protože AI se stává silnější.

V kontrolním experimentu využívajícím generátor textu GPT-2 OpenAI poprvé vydaný v roce 2019 k výuce GPT-4 se novější systém stal méně schopným a podobným nižšímu systému. Výzkumníci testovali dva nápady, jak to napravit. Jedna zahrnovala trénování postupně větších modelů, aby se snížil výkon ztracený v každém kroku. Ve druhé tým přidal do GPT-4 algoritmické vyladění, které umožnilo silnějšímu modelu sledovat pokyny slabšího modelu, aniž by oslabil jeho výkon tak, jak by se normálně stalo. To bylo efektivnější, i když vědci připouštějí, že tyto metody nezaručují, že se silnější model bude chovat perfektně, a popisují to jako výchozí bod pro další výzkum.

„Je skvělé vidět, že OpenAI proaktivně řeší problém ovládání nadlidských AI,“ říká Dan Hendryks, ředitel Centra pro bezpečnost AI, neziskové organizace v San Francisku, která se věnuje řízení rizik AI. „Budeme potřebovat mnoho let oddaného úsilí, abychom tuto výzvu zvládli.“

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com