OpenAI nabízí pohled do nitra ChatGPT

Přístup vývojáře ChatGPT OpenAI k budování umělé inteligence se tento týden dostal pod palbu bývalých zaměstnanců, kteří obviňují společnost ze zbytečného riskování s technologií, která by se mohla stát škodlivou.

OpenAI dnes vydala nový výzkumný dokument, který je zjevně zaměřen na to, aby ukázal, že to myslí vážně s rizikem AI tím, že jeho modely budou lépe vysvětlitelné. V článku výzkumníci ze společnosti navrhli způsob, jak nahlédnout do modelu AI, který pohání ChatGPT. Navrhují metodu identifikace toho, jak model ukládá určité koncepty – včetně těch, které by mohly způsobit špatné chování systému AI.

Přestože výzkum zviditelnil práci OpenAI na udržování umělé inteligence pod kontrolou, také zdůrazňuje nedávné nepokoje ve společnosti. Nový výzkum provedl nedávno rozpuštěný tým „superalignment“ v OpenAI, který se věnoval studiu dlouhodobých rizik této technologie.

Koleadové bývalé skupiny, Ilya Sutskever a Jan Leike – oba opustili OpenAI – jsou jmenováni jako spoluautoři. Sutskever, spoluzakladatel OpenAI a bývalý hlavní vědec, byl mezi členy představenstva, kteří loni v listopadu hlasovali pro odvolání generálního ředitele Sama Altmana, což vyvolalo několik chaotických dnů, které vyvrcholily Altmanovým návratem do funkce vůdce.

ChatGPT je poháněn rodinou takzvaných velkých jazykových modelů zvaných GPT, založených na přístupu ke strojovému učení známému jako umělé neuronové sítě. Tyto matematické sítě prokázaly velkou sílu naučit se užitečné úkoly pomocí analýzy příkladových dat, ale jejich fungování nelze snadno prozkoumat, jako to mohou běžné počítačové programy. Složitá souhra mezi vrstvami „neuronů“ v umělé neuronové síti činí reverzní inženýrství, proč systém jako ChatGPT přišel s konkrétní reakcí, nesmírně náročným.

„Na rozdíl od většiny lidských výtvorů ve skutečnosti nerozumíme vnitřnímu fungování neuronových sítí,“ napsali vědci stojící za prací v doprovodném blogovém příspěvku. Někteří prominentní výzkumníci umělé inteligence se domnívají, že nejvýkonnější modely umělé inteligence, včetně ChatGPT, by snad mohly být použity k navrhování chemických nebo biologických zbraní a koordinaci kybernetických útoků. Dlouhodobější obavou je, že modely umělé inteligence se mohou rozhodnout skrýt informace nebo jednat škodlivým způsobem, aby dosáhly svých cílů.

Nový dokument OpenAI nastiňuje techniku, která trochu zmírňuje záhadu tím, že identifikuje vzory, které představují konkrétní koncepty uvnitř systému strojového učení s pomocí dalšího modelu strojového učení. Klíčovou inovací je zdokonalení sítě používané k nahlédnutí do systému zájmu identifikací konceptů, aby byl efektivnější.

OpenAI prokázala tento přístup identifikací vzorů, které představují koncepty uvnitř GPT-4, jednoho z jeho největších modelů umělé inteligence. Společnost vydala kód související s interpretovatelností a také vizualizační nástroj, který lze použít ke zjištění, jak slova v různých větách aktivují koncepty, včetně vulgárních výrazů a erotického obsahu, v GPT-4 a dalším modelu. Vědět, jak model reprezentuje určité koncepty, by mohlo být krokem k tomu, abychom byli schopni potlačit ty, které jsou spojené s nežádoucím chováním, a udržet systém AI na kolejích. Mohlo by to také umožnit vyladit systém AI tak, aby upřednostňoval určitá témata nebo nápady.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com