Meta’s Movie Gen vytváří přesvědčivé videoklipy s umělou inteligencí







Společnost Meta právě oznámila svůj vlastní model umělé inteligence zaměřený na média, nazvaný Movie Gen, který lze použít k vytváření realistických videí a zvukových klipů.

Společnost sdílela několik 10sekundových klipů vytvořených pomocí Movie Gen, včetně plavajícího se mláděte hrocha ve stylu Moo Deng, aby demonstrovala své schopnosti. I když tento nástroj ještě není k dispozici k použití, toto oznámení Movie Gen přichází krátce po události Meta Connect, která představila nový a aktualizovaný hardware a nejnovější verzi jeho velkého jazykového modelu, Llama 3.2.

Model Movie Gen, který jde nad rámec generování přímočarých klipů z textu na video, může provádět cílené úpravy existujícího klipu, jako je přidání objektu do něčích rukou nebo změna vzhledu povrchu. V jednom z ukázkových videí od Meta byla žena s VR headsetem přeměněna tak, aby vypadala, jako by měla na sobě steampunkový dalekohled.

Video vytvořené umělou inteligencí vytvořené na základě výzvy „udělej ze mě malíře“.

S laskavým svolením Meta

Video vytvořené umělou inteligencí vytvořené z výzvy „žena DJ točí desky. Má na sobě růžovou bundu a obří sluchátka. Vedle ženy je gepard.“

S laskavým svolením Meta

Spolu s videi lze generovat zvukové kousnutí s Movie Gen. V ukázkových klipech stojí muž s umělou inteligencí poblíž vodopádu se slyšitelným šploucháním a nadějnými zvuky symfonie; motor sportovního auta vrní a pneumatiky skřípou, když se kroutí kolem trati, a had klouže po podlaze džungle doprovázený napínavými klaksony.

Meta sdílela některé další podrobnosti o Movie Gen ve výzkumném dokumentu vydaném v pátek. Movie Gen Video obsahuje 30 miliard parametrů, zatímco Movie Gen Audio obsahuje 13 miliard parametrů. (Počet parametrů modelu zhruba odpovídá jeho schopnosti; naopak největší varianta Llama 3.1 má 405 miliard parametrů.) Movie Gen dokáže produkovat videa ve vysokém rozlišení o délce až 16 sekund a Meta tvrdí, že překonává konkurenční modely v celkové kvalitě videa.

Začátkem tohoto roku předvedl generální ředitel Mark Zuckerberg funkci Imagine Me společnosti Meta AI, kde uživatelé mohou nahrát svou fotografii a hrát roli své tváře v různých scénářích tím, že na Threads zveřejní obrázek AI, na kterém se topí ve zlatých řetězech. Video verze podobné funkce je možná s modelem Movie Gen – představte si to jako druh ElfYourself na steroidech.

Na jakých informacích byl Movie Gen vyškolen? Specifika nejsou z oznámení Meta jasné: „Tyto modely jsme vycvičili na kombinaci licencovaných a veřejně dostupných datových sad.“ Zdroje školicích dat a to, co je spravedlivé seškrábat z webu, zůstávají sporným problémem pro generativní nástroje umělé inteligence a málokdy je veřejností známo, jaký text, video nebo audioklipy byly použity k vytvoření některého z hlavních modelů.

Bude zajímavé sledovat, jak dlouho bude Meta trvat, než bude Movie Gen široce dostupný. Oznamovací blog vágně naznačuje „potenciální budoucí vydání“. Pro srovnání, OpenAI oznámila svůj AI video model s názvem Sora na začátku tohoto roku a dosud jej nezpřístupnila veřejnosti ani nesdílela žádné nadcházející datum vydání (ačkoli WIRED od společnosti obdržel několik exkluzivních klipů Sora pro vyšetřování zkreslení). ).

Vzhledem k dědictví společnosti Meta jako společnosti sociálních médií je možné, že nástroje poháněné Movie Gen se nakonec začnou objevovat uvnitř Facebooku, Instagramu a WhatsApp. V září se konkurenční Google podělil o plány zpřístupnit aspekty svého videomodelu Veo tvůrcům v rámci svých krátkých videí YouTube někdy v příštím roce.

Zatímco větší technologické společnosti se stále zdráhají plně uvolnit video modely pro veřejnost, můžete právě teď experimentovat s nástroji AI pro video od menších, nadcházejících startupů, jako jsou Runway a Pika. Dejte Pikaffects zatočit, pokud jste někdy byli zvědaví, jaké by to bylo vidět se kresleně rozdrceného hydraulickým lisem nebo náhle tát v louži.





Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com