OpenAI nabízí nový výzkum bezpečnosti AI. Kritici říkají, že je to dobrý krok, ale nestačí







OpenAI se v posledních měsících potýká s odporem ze strany těch, kteří naznačují, že možná příliš rychle a bezohledně spěchá s vývojem výkonnější umělé inteligence. Zdá se, že společnost chce ukázat, že bere bezpečnost AI vážně. Dnes představila výzkum, který by podle ní mohl výzkumníkům pomoci zkoumat modely umělé inteligence, i když se stanou schopnějšími a užitečnějšími.

Nová technika je jedním z několika nápadů souvisejících s bezpečností AI, které společnost v posledních týdnech propagovala. Zahrnuje to, aby se dva modely umělé inteligence zapojily do konverzace, která nutí ten výkonnější, aby byl transparentnější neboli „čitelnější“ se svým uvažováním, aby lidé pochopili, o co jde.

„Toto je jádrem mise budování an [artificial general intelligence] to je bezpečné i prospěšné,“ říká Yining Chen, výzkumník z OpenAI zapojený do práce, pro WIRED.

Práce byla zatím testována na modelu umělé inteligence určeném k řešení jednoduchých matematických úloh. Výzkumníci z OpenAI požádali model umělé inteligence, aby vysvětlil své úvahy, když odpovídal na otázky nebo řešil problémy. Druhý model je trénován tak, aby zjistil, zda jsou odpovědi správné nebo ne, a výzkumníci zjistili, že zapojení obou modelů tam a zpět povzbudilo ten, který řeší matematiku, aby byl otevřenější a transparentnější ve svém uvažování.

OpenAI veřejně vydává dokument popisující tento přístup. „Je to součást dlouhodobého plánu výzkumu bezpečnosti,“ říká Jan Hendrik Kirchner, další výzkumník OpenAI zapojený do práce. „Doufáme, že další výzkumníci mohou navázat a možná také vyzkoušet jiné algoritmy.“

Transparentnost a vysvětlitelnost jsou klíčovými zájmy výzkumníků AI, kteří pracují na budování výkonnějších systémů. Velké jazykové modely někdy nabídnou rozumná vysvětlení toho, jak došli k závěru, ale klíčovou obavou je, že budoucí modely se mohou stát více neprůhlednými nebo dokonce klamnými ve vysvětleních, která poskytují – možná sledují nežádoucí cíl a přitom o tom lžou.

Dnes odhalený výzkum je součástí širšího úsilí o pochopení toho, jak fungují velké jazykové modely, které jsou jádrem programů jako ChatGPT. Je to jedna z mnoha technik, které by mohly pomoci k tomu, aby výkonnější modely AI byly transparentnější, a tudíž bezpečnější. OpenAI a další společnosti také zkoumají mechanističtější způsoby nahlédnutí do fungování velkých jazykových modelů.

OpenAI v posledních týdnech po kritice svého přístupu odhalila více ze své práce na bezpečnosti AI. V květnu se WIRED dozvěděl, že tým výzkumníků, kteří se věnovali studiu dlouhodobého rizika AI, byl rozpuštěn. Stalo se tak krátce po odchodu spoluzakladatele a klíčového technického lídra Ilji Sutskevera, který byl jedním z členů představenstva, kteří loni v listopadu krátce sesadili generálního ředitele Sama Altmana.

OpenAI bylo založeno na slibu, že díky němu bude AI transparentnější pro kontrolu a bude bezpečnější. Po neuvěřitelném úspěchu ChatGPT a intenzivnější konkurenci ze strany dobře podporovaných rivalů někteří lidé obvinili společnost, že upřednostňuje okázalé pokroky a podíl na trhu před bezpečností.

Daniel Kokotajlo, výzkumník, který opustil OpenAI a podepsal otevřený dopis kritizující přístup společnosti k bezpečnosti AI, říká, že nová práce je důležitá, ale postupná, a že to nic nemění na skutečnosti, že společnosti vytvářející technologii potřebují větší dohled. „Situace, ve které se nacházíme, se nemění,“ říká. „Neprůhledné, nezodpovědné, neregulované korporace, které se navzájem předhánějí v budování umělé superinteligence, v podstatě nemají žádný plán, jak ji ovládat.“

Jiný zdroj se znalostí vnitřního fungování OpenAI, který si nepřál být jmenován, protože nebyl oprávněn mluvit veřejně, říká, že je také potřeba vnější dohled nad společnostmi využívajícími umělou inteligenci. „Otázkou je, zda to s druhy procesů a mechanismů řízení, které potřebujete, abyste upřednostnili společenský prospěch před ziskem, myslí vážně,“ říká zdroj. „Ne, jestli nechali některého ze svých výzkumníků dělat nějaké bezpečnostní věci.“





Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com