Syntéza hlasu ušla dlouhou cestu od hračky Speak & Spell z roku 1978, která kdysi lidi ohromila svou nejmodernější schopností číst slova nahlas pomocí elektronického hlasu. Nyní může software pomocí modelů umělé inteligence s hlubokým učením vytvářet nejen realisticky znějící hlasy, ale může také přesvědčivě napodobovat stávající hlasy pomocí malých vzorků zvuku.
V souladu s tím OpenAI tento týden oznámila Voice Engine, model AI pro převod textu na řeč pro vytváření syntetických hlasů založených na 15sekundovém segmentu nahraného zvuku. Na svých webových stránkách poskytla zvukové ukázky Voice Engine v akci.
Jakmile je hlas naklonován, může uživatel vložit text do Voice Engine a získat hlasový výsledek generovaný AI. OpenAI však není připravena na rozsáhlé uvolnění své technologie. Společnost původně plánovala spustit pilotní program pro vývojáře, aby se zaregistrovali pro Voice Engine API začátkem tohoto měsíce. Ale po podrobnějším zvážení etických důsledků se společnost rozhodla prozatím omezit své ambice.
„V souladu s naším přístupem k bezpečnosti umělé inteligence a našimi dobrovolnými závazky jsme se rozhodli tuto technologii předběžně, ale v tuto chvíli neuvolňovat široce,“ píše společnost. „Doufáme, že tato ukázka Voice Engine podtrhne jeho potenciál a také motivuje k potřebě posílit odolnost společnosti vůči výzvám, které přináší stále přesvědčivější generativní modely.“
Technologie hlasového klonování obecně není nijak zvlášť nová – od roku 2022 existuje několik modelů hlasové syntézy AI a tato technologie je aktivní v komunitě open source s balíčky jako OpenVoice a XTTSv2. Ale myšlenka, že OpenAI směřuje k tomu, aby kdokoli používal její konkrétní značku hlasové technologie, je pozoruhodná. A v některých ohledech může být tím větším příběhem zdrženlivost společnosti k úplnému vydání.
OpenAI říká, že mezi výhody jeho hlasové technologie patří poskytování pomoci při čtení prostřednictvím přirozeně znějících hlasů, umožnění globálního dosahu pro tvůrce překládáním obsahu při zachování nativních přízvuků, podpora neverbálních jednotlivců pomocí personalizovaných možností řeči a pomoc pacientům při obnově vlastního hlasu po stavy zhoršující řeč.
Ale také to znamená, že kdokoli, kdo má 15 sekund něčího nahraného hlasu, by jej mohl efektivně naklonovat, a to má zjevné důsledky pro potenciální zneužití. I když OpenAI nikdy široce neuvolní svůj Voice Engine, schopnost klonovat hlasy již způsobila ve společnosti problémy prostřednictvím telefonních podvodů, kdy někdo napodobuje hlas milovaného člověka a robotických hovorů předvolebních kampaní obsahujících klonované hlasy politiků, jako je Joe Biden.
Výzkumníci a reportéři také ukázali, že technologii hlasového klonování lze použít k nabourání se do bankovních účtů, které používají hlasové ověřování (jako je Chase’s Voice ID), což přimělo amerického senátora Sherroda Browna z Ohia, předsedu Výboru pro bankovnictví amerického Senátu. , Housing, and Urban Affairs, aby v květnu 2023 zaslali generálním ředitelům několika velkých bank dopis s dotazem na bezpečnostní opatření, která banky přijímají, aby čelily rizikům spojeným s umělou inteligencí.
OpenAI si uvědomuje, že tato technologie může způsobit potíže, pokud bude široce uvolněna, takže se zpočátku snaží tyto problémy obejít pomocí sady pravidel. Od loňského roku technologii testuje se sadou vybraných partnerských společností. Například společnost pro videosyntézu HeyGen používá tento model k překladu hlasu mluvčího do jiných jazyků při zachování stejného vokálního zvuku.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com