Vizuální vyhledávání Google nyní dokáže zodpovědět ještě složitější otázky







Když byl v roce 2017 představen Google Lens, funkce vyhledávání dokázala výkon, který by ještě nedávno vypadal jako sci-fi: Namiřte fotoaparát telefonu na objekt a Google Lens jej dokáže identifikovat, ukázat nějaký kontext, možná dokonce nechat koupíte si to. Byl to nový způsob vyhledávání, který nezahrnoval nešikovné psaní popisů věcí, které jste viděli před sebou.

Lens také předvedl, jak Google plánuje využít své strojové učení a nástroje AI, aby zajistil, že se jeho vyhledávač zobrazí na každém možném povrchu. Vzhledem k tomu, že Google stále více využívá své základní generativní modely umělé inteligence ke generování souhrnů informací v reakci na textové vyhledávání, vyvíjí se i vizuální vyhledávání Google Lens. A nyní společnost říká, že Lens, který zajišťuje přibližně 20 miliard vyhledávání měsíčně, bude podporovat ještě více způsobů vyhledávání, včetně vyhledávání videa a multimodálního vyhledávání.

Další vylepšení Lens znamená, že se ve výsledcích zobrazí ještě více kontextu pro nakupování. Nakupování je nepřekvapivě jedním z klíčových případů použití Lens; Amazon a Pinterest mají také vizuální vyhledávací nástroje navržené tak, aby podpořily větší nákupy. Hledejte tenisky svého přítele ve starém Google Lens a možná se vám zobrazil kolotoč podobných položek. V aktualizované verzi Lens Google říká, že zobrazí více přímých odkazů pro nákup, zákaznické recenze, recenze vydavatelů a srovnávací nákupní nástroje.

Hledání objektivu je nyní multimodální, což je v současné době v AI horké slovo, což znamená, že lidé nyní mohou vyhledávat pomocí kombinace videa, obrázků a hlasových vstupů. Namísto namíření fotoaparátu chytrého telefonu na objekt, klepání na ostřící bod na obrazovce a čekání na výsledky aplikace Lens mohou uživatelé namířit objektiv a současně používat hlasové příkazy, například „Jaký druh jsou to mraky?“ nebo „Jaké jsou to tenisky a kde je mohu koupit?“

Objektiv také začne pracovat při snímání videa v reálném čase, čímž se nástroj posune o krok za hranice identifikace objektů na statických snímcích. Pokud máte rozbitý gramofon nebo doma vidíte blikající světlo na nefunkčním zařízení, můžete pořídit rychlé video přes Lens a prostřednictvím generativního přehledu AI se podívat na tipy, jak položku opravit.

Tato funkce, která byla poprvé oznámena na I/O, je považována za experimentální a je dostupná pouze lidem, kteří se přihlásili do vyhledávacích laboratoří Google, říká Rajan Patel, 18letý zaměstnanec společnosti Google a spoluzakladatel společnosti Lens. Další funkce Google Lens, hlasový režim a rozšířené nakupování, jsou rozšířeny.

Funkce „pochopení videa“, jak ji Google nazývá, je zajímavá z několika důvodů. I když v současné době pracuje s videem zachyceným v reálném čase, pokud nebo až jej Google rozšíří na pořízená videa, celá úložiště videí – ať už ve vlastních záznamech z fotoaparátu nebo v obrovské databázi, jako je Google – by se potenciálně mohla stát tagovatelnou a v drtivé většině nakupovatelná.

Druhou úvahou je, že tato funkce Lens sdílí některé vlastnosti s projektem Google Project Astra, který by měl být dostupný koncem tohoto roku. Astra, stejně jako Lens, používá multimodální vstupy k interpretaci světa kolem vás prostřednictvím vašeho telefonu. V rámci dema Astry letos na jaře společnost předvedla pár prototypů chytrých brýlí.

Samostatně, Meta právě udělala šplouchnutí svou dlouhodobou vizí naší budoucnosti v rozšířené realitě, která zahrnuje pouhé smrtelníky nosící dorky brýle, které dokážou chytře interpretovat svět kolem sebe a ukázat jim holografická rozhraní. Google se samozřejmě již pokoušel realizovat tuto budoucnost pomocí Google Glass (které využívají zásadně odlišnou technologii než nejnovější prezentační nabídka Meta). Jsou nové funkce Lens ve spojení s Astrou přirozeným přechodem k novému druhu chytrých brýlí?





Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com