Nové „empatické hlasové rozhraní“, které dnes spustil Hume AI, startup sídlící v New Yorku, umožňuje přidat k velkým jazykovým modelům od Anthropic, Google, Meta, Mistral řadu emocionálně expresivních hlasů a emocionálně naladěné ucho. , a OpenAI – předznamenává éru, kdy se na nás pomocníci AI mohou stále častěji vrhat.
„Specializujeme se na budování empatických osobností, které mluví tak, jak by lidé mluvili, spíše než na stereotypy asistentů AI,“ říká spoluzakladatel Hume AI Alan Cowen, psycholog, který je spoluautorem řady výzkumných prací o AI a emocích a který dříve pracoval na emocionální technologie na Googlu a Facebooku.
WIRED testoval Humeovu nejnovější hlasovou technologii nazvanou EVI 2 a zjistil, že její výstup je podobný tomu, který vyvinul OpenAI pro ChatGPT. (Když OpenAI v květnu dala ChatGPT koketní hlas, generální ředitel společnosti Sam Altman vychvaloval rozhraní, že se cítí „jako umělá inteligence z filmů.“ Později skutečná filmová hvězda, Scarlett Johansson, tvrdila, že jí OpenAI ukradl hlas.)
Stejně jako ChatGPT je Hume mnohem emocionálněji expresivní než většina konvenčních hlasových rozhraní. Pokud mu například řeknete, že váš mazlíček zemřel, přijme vhodný ponurý a soucitný tón. (Stejně jako u ChatGPT můžete Hume přerušit uprostřed toku a ten se pozastaví a přizpůsobí se novou odpovědí.)
OpenAI neuvedlo, jak moc se jeho hlasové rozhraní snaží měřit emoce uživatelů, ale Hume’s je k tomu výslovně navržen. Během interakcí bude vývojářské rozhraní Hume ukazovat v hlase uživatelů hodnoty indikující míru věcí jako „odhodlání“, „úzkost“ a „štěstí“. Pokud budete mluvit s Humem smutným tónem, také to pochopí, což se zdá, že ChatGPT nedělá.
Hume také usnadňuje nasazení hlasu se specifickými emocemi přidáním výzvy do uživatelského rozhraní. Tady je, když jsem to požádal, aby to bylo „sexy a flirtující“:
A když se řekne „smutný a mrzutý“:
A zde je obzvláště ošklivá zpráva, když je požádán, aby byl „rozzlobený a hrubý“:
Technologie se vždy nezdála jako leštěné a hladké jako OpenAI a občas se choval zvláštním způsobem. Například v jednu chvíli hlas náhle zrychlil a chrlil bláboly. Ale pokud lze hlas vylepšit a učinit spolehlivějším, má potenciál pomoci učinit lidská hlasová rozhraní běžnějšími a rozmanitějšími.
Myšlenka rozpoznání, měření a simulace lidských emocí v technologických systémech sahá desítky let do minulosti a je studována v oboru známém jako „afektivní výpočetní technika“, termín zavedený Rosalind Picardovou, profesorkou na MIT Media Lab, v 90. letech minulého století.
Albert Salah, profesor na Utrechtské univerzitě v Nizozemsku, který studuje afektivní počítání, je ohromen technologií Hume AI a nedávno ji předvedl svým studentům. „Zdá se, že EVI dělá, že přiřazuje emocionální valenci a hodnoty vzrušení [to the user]a poté odpovídajícím způsobem modulovat řeč agenta,“ říká. „Je to velmi zajímavý obrat na LLM.“
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com