OpenAI chce, aby umělá inteligence pomáhala lidem trénovat umělou inteligenci







Jednou z klíčových ingrediencí, díky nimž byl ChatGPT obrovským úspěchem, byla armáda lidských trenérů, kteří modelu umělé inteligence za robotem poskytli vodítko ohledně toho, co tvoří dobré a špatné výstupy. OpenAI nyní říká, že přidání ještě více umělé inteligence do mixu – na pomoc lidským trenérům – by mohlo pomoci učinit pomocníky AI chytřejšími a spolehlivějšími.

Při vývoji ChatGPT byla OpenAI průkopníkem v používání posilovacího učení s lidskou zpětnou vazbou neboli RLHF. Tato technika využívá vstup od lidských testerů k doladění modelu AI tak, aby byl jeho výstup posouzen jako koherentnější, méně závadný a přesnější. Hodnocení, která školitelé udělují, se vkládají do algoritmu, který řídí chování modelu. Tato technika se ukázala jako zásadní jak pro to, aby byly chatboty spolehlivější a užitečnější, tak pro zabránění jejich špatnému chování.

„RLHF funguje velmi dobře, ale má některá klíčová omezení,“ říká Nat McAleese, výzkumník z OpenAI, který se na nové práci podílel. Jednak může být lidská zpětná vazba nekonzistentní. Za druhé může být i pro zkušené lidi obtížné hodnotit extrémně složité výstupy, jako je sofistikovaný softwarový kód. Proces může také optimalizovat model tak, aby produkoval výstup, který se jeví spíše přesvědčivě než ve skutečnosti přesný.

OpenAI vyvinula nový model vyladěním své nejvýkonnější nabídky, GPT-4, aby pomáhala lidským školitelům, kteří mají za úkol vyhodnocovat kód. Společnost zjistila, že nový model, nazvaný CriticGPT, dokáže zachytit chyby, které lidé přehlédli, a že lidští soudci zjistili, že její kritika kódu je v 63 procentech případů lepší. OpenAI se v budoucnu podívá na rozšíření přístupu do oblastí mimo kód.

„Začínáme pracovat na integraci této techniky do našeho balíčku chatů RLHF,“ říká McAleese. Poznamenává, že tento přístup je nedokonalý, protože CriticGPT může také dělat chyby halucinacemi, ale dodává, že tato technika by mohla pomoci zpřesnit modely OpenAI i nástroje jako ChatGPT snížením chyb v lidském tréninku. Dodává, že by se to mohlo ukázat jako zásadní při pomoci modelům umělé inteligence stát se mnohem chytřejšími, protože to může lidem umožnit trénovat umělou inteligenci, která přesahuje jejich vlastní schopnosti. „A jak jsou modely stále lepší a lepší, máme podezření, že lidé budou potřebovat více pomoci,“ říká McAleese.

Tato nová technika je jednou z mnoha, které se nyní vyvíjejí, aby zlepšily velké jazykové modely a vytlačily z nich více schopností. Je to také součást snahy zajistit, aby se umělá inteligence chovala přijatelným způsobem, i když se stává schopnější.

Začátkem tohoto měsíce oznámil Anthropic, rival OpenAI, který založili bývalí zaměstnanci OpenAI, schopnější verzi vlastního chatbota nazvaného Claude, a to díky vylepšením v tréninkovém režimu modelu a datům, která jsou přiváděna. Společnosti Anthropic a OpenAI nedávno také nabídly nové způsoby kontroly modelů umělé inteligence, aby pochopily, jak dosáhnou svého výstupu, aby se lépe zabránilo nežádoucímu chování, jako je klamání.

Nová technika by mohla pomoci OpenAI trénovat stále výkonnější modely umělé inteligence a zároveň zajistit, aby jejich výstup byl důvěryhodnější a v souladu s lidskými hodnotami, zejména pokud jej společnost úspěšně nasadí ve více oblastech, než je kód. OpenAI uvedla, že trénuje svůj další hlavní model umělé inteligence, a společnost evidentně chce ukázat, že to myslí vážně s tím, aby se choval. Stalo se tak po rozpuštění prominentního týmu, který se věnuje hodnocení dlouhodobých rizik, která AI představuje. Tým vedl Ilya Sutskever, spoluzakladatel společnosti a bývalý člen představenstva, který krátce vytlačil generálního ředitele Sama Altmana ze společnosti, než se odvolal a pomohl mu znovu získat kontrolu. Několik členů tohoto týmu od té doby kritizovalo společnost za riskantní postup, když spěchá s vývojem a komercializací výkonných algoritmů AI.

Dylan Hadfield-Menell, profesor na MIT, který zkoumá způsoby, jak sladit umělou inteligenci, říká, že myšlenka, že modely umělé inteligence pomáhají trénovat ty výkonnější, už nějakou dobu funguje. „Je to docela přirozený vývoj,“ říká.

Hadfield-Menell poznamenává, že výzkumníci, kteří původně vyvinuli techniky používané pro RLHF, diskutovali o souvisejících myšlenkách před několika lety. Říká, že se teprve uvidí, jak je to obecně použitelné a silné. „Mohlo by to vést k velkým skokům v individuálních schopnostech a mohlo by to být odrazovým můstkem k nějaké efektivnější zpětné vazbě z dlouhodobého hlediska,“ říká.





Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com