Jak používat Gemini AI k shrnutí videí na YouTube







Následná otázka o konečném skóre byla zodpovězena správně, ale Gemini dostal jméno střelce prvního dotyku špatně: AI navrhla, že to byl Johan Dotson. Dotsonovi bylo ukázáno, že získal přistání ve světlech se skóre na 0-0, ale bylo vyloučeno-příklad nuancí, které AI nemusí nutně vyzvednout.

Gemini úspěšně identifikovali, kdy náčelníci města Kansas získali své první body, a dokonce zahrnoval časové razítko spojující přímo s touchdown v klipu YouTube. Také to bylo název střelce správně. Zdá se, že Gemini se silně spoléhá na komentář pro sportovní klipy, což není překvapivé.

Shrnout obsah videa

Obrázek může obsahovat soubor a webovou stránku

AI si může vybrat podrobnosti o videu – pokud jsou uvedeny v zvuku.

Fotografie: David Nield

Dále jsme se pokusili postavit Gemini proti zákulisí Featurette pro hotel Grand Budapest, režie Wes Anderson. Klip běží na čtyři a půl minuty a Gemini vystřelil téměř okamžitě některé odpovědi: identifikoval název filmu, o kterém se mluví, a hlavní rytmy vyprávění klipu.

Všechno se však opět spoléhá na zvuk (nebo přepis) – zdá se, že neexistuje žádná analýza skutečného obsahu videa. AI nemohla říci, kdo mluvili hlavy ve videu, i když jejich jména byla zobrazena na obrazovce a nebyla schopna říci, kdo byl režisér (i když to bylo také zmíněno v popisu videa).

Na druhou stranu, Gemini odvedli působivou práci sčítající zvuk videa. Správně identifikoval některé z filmových výzev, které byly zmíněny po celou dobu, a poskytlo jim časové razítka – od hledání sady, které reprezentují Grand Budapešť, až po jeho naplnění doplňků.

Shrnout rozhovory

Obrázek může obsahovat textový soubor stránky a webovou stránku

Gemini mohou poskytnout časová razítka pro zadané video.

Fotografie: David Nield

Nakonec jsme vyzkoušeli Google Gemini s rozhovorem: Channel 4 ve Velké Británii hovořili s Charlie Brooker a Siena Kelly o nejnovější sérii Série Black Mirror (možná vhodné pro článek o AI). Gemini se osvědčila velmi schopná vybírat mluvící body a přidávat časové razítka, i když samozřejmě celé video většinou mluví.

Opět však neexistuje kontext o nic mimo zvuk nebo přepis. Gemini AI nemohla říci, kde se rozhovor konal, nebo jak účastníci jednali, nebo o něco jiného o vizuálech videa – což stojí za to mít na paměti, pokud jej používáte sami.

Pro videa, kde jsou odpovědi, které chcete, jsou v zvuku videa na YouTube a jeho související přepis, Gemini pracují opravdu dobře při shrnutí a poskytování přesných odpovědí (za předpokladu, že komentátoři zmiňují, kdy je vyloučen přistání, a když je skórován). Pro jakoukoli vizuální informace budete stále muset sledovat video sami.





Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com