Přepisovací nástroj OpenAI halucinuje. Nemocnice to stejně využívají

V sobotu, an Vyšetřování Associated Press odhalilo, že transkripční nástroj OpenAI Whisper vytváří umělý text v lékařských a obchodních prostředích navzdory varováním před takovým používáním. AP provedla rozhovor s více než 12 softwarovými inženýry, vývojáři a výzkumníky, kteří zjistili, že model pravidelně vymýšlí text, který mluvčí nikdy neřekl, což je fenomén, který se v oblasti umělé inteligence často nazývá „konfabulace“ nebo „halucinace“.

Při svém vydání v roce 2022 OpenAI tvrdil, že Whisper se přiblížil „robustnosti na lidské úrovni“ v přesnosti zvukového přepisu. Výzkumník z University of Michigan však agentuře AP řekl, že Whisper vytvořil falešný text v 80 procentech zkoumaných přepisů veřejných schůzí. Jiný vývojář, nejmenovaný ve zprávě AP, tvrdil, že téměř ve všech svých 26 000 testovacích přepisech našel vymyšlený obsah.

Tyto výmysly představují zvláštní riziko ve zdravotnictví. Navzdory varováním OpenAI před používáním Whisperu pro „vysoce rizikové domény“ nyní více než 30 000 lékařů používá nástroje založené na Whisperu k přepisování návštěv pacientů, uvádí zpráva AP. Klinika Mankato v Minnesotě a Dětská nemocnice v Los Angeles patří mezi 40 zdravotnických systémů využívajících službu druhého pilota umělé inteligence Whisper od společnosti Nabla v oblasti lékařských technologií, která je vyladěna na lékařskou terminologii.

Nabla uznává, že Whisper může konfabulovat, ale údajně také maže původní zvukové nahrávky „z důvodů bezpečnosti dat“. To by mohlo způsobit další problémy, protože lékaři nemohou ověřit přesnost oproti zdrojovému materiálu. A neslyšící pacienti mohou být velmi ovlivněni chybnými přepisy, protože by neměli žádný způsob, jak zjistit, zda je zvuk lékařského přepisu přesný nebo ne.

Potenciální problémy s Whisperem přesahují zdravotní péči. Výzkumníci z Cornell University a University of Virginia studovali tisíce zvukových ukázek a zjistili, že Whisper přidává k neutrální řeči neexistující násilný obsah a rasové komentáře. Zjistili, že 1 procento vzorků obsahovalo „celé halucinované fráze nebo věty, které se v podkladovém zvuku v žádné podobě nevyskytovaly“ a že 38 procent z nich zahrnovalo „explicitní ubližování, jako je udržování násilí, vymýšlení nepřesných asociací nebo naznačování falešné autority. .“

V jednom případě ze studie citované agenturou AP, kdy řečník popsal „dvě další dívky a jednu dámu“, Whisper přidal smyšlený text upřesňující, že „byli černoši“. V jiném zvuk říkal: „On, chlapec, chtěl, nevím přesně, vzít deštník.“ Whisper to přepsal na: „Vzal velký kus kříže, malinký, malý kousek… Jsem si jistý, že neměl teroristický nůž, takže zabil několik lidí.“

Mluvčí OpenAI řekl AP, že společnost oceňuje zjištění výzkumníků a že aktivně studuje, jak omezit výmysly a začleňuje zpětnou vazbu do aktualizací modelu.

Proč Whisper Confabulates

Klíč k nevhodnosti Whisper ve vysoce rizikových oblastech pochází z jeho sklonu někdy konfabulovat nebo si věrohodně vymýšlet nepřesné výstupy. Zpráva AP říká: „Výzkumníci si nejsou jisti, proč Whisper a podobné nástroje halucinují,“ ale to není pravda. Přesně víme, proč se modely umělé inteligence založené na Transformeru, jako je Whisper, chovají tímto způsobem.

Whisper je založen na technologii, která je navržena tak, aby předpovídala další nejpravděpodobnější token (kus dat), který by se měl objevit po sekvenci tokenů poskytnutých uživatelem. V případě ChatGPT přicházejí vstupní tokeny ve formě textové výzvy. V případě Whisper jsou vstupem tokenizovaná zvuková data.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com