Model Apple MM1 AI ukazuje, že se spící obr probouzí

Zatímco technologický průmysl šel gaga na generativní umělou inteligenci, jeden gigant se držel zpátky: Apple. Společnost ještě nepředstavila tolik emotikonů generovaných umělou inteligencí a podle a New York Times Zpráva dnes a dřívější zprávy od Bloombergu, předběžně jedná s Googlem o přidání modelu Gemini AI této vyhledávací společnosti do iPhonů.

Přesto výzkumný dokument, který minulý pátek v tichosti zveřejnili online inženýři společnosti Apple, naznačuje, že společnost významně investuje do AI, které již přináší ovoce. Podrobně popisuje vývoj nového generativního modelu umělé inteligence s názvem MM1 schopného pracovat s textem a obrázky. Výzkumníci ukazují, že odpovídá na otázky o fotografiích a zobrazuje druh obecných znalostí, které vykazují chatboti, jako je ChatGPT. Název modelu není vysvětlen, ale mohl by znamenat MultiModal 1.

Zdá se, že MM1 je svým designem a propracovaností podobný řadě nedávných modelů umělé inteligence od jiných technologických gigantů, včetně open source Llama 2 od společnosti Meta a Gemini od Googlu. Práce konkurentů a akademiků společnosti Apple ukazuje, že modely tohoto typu lze použít k napájení schopných chatbotů nebo k vytváření „agentů“, kteří dokážou řešit úkoly psaním kódu a prováděním akcí, jako je použití počítačových rozhraní nebo webových stránek. To naznačuje, že MM1 by si ještě mohl najít cestu do produktů Apple.

„Skutečnost, že to dělají, ukazuje, že mají schopnost porozumět tomu, jak trénovat a jak tyto modely stavět,“ říká Ruslan Salakhutdinov, profesor na Carnegie Mellon, který před několika lety vedl výzkum AI ve společnosti Apple. „Vyžaduje to určitou odbornost.“

MM1 je multimodální velký jazykový model nebo MLLM, což znamená, že je trénován na obrázcích i na textu. To umožňuje modelu reagovat na textové výzvy a také odpovídat na složité otázky týkající se konkrétních obrázků.

Jeden příklad ve výzkumné zprávě společnosti Apple ukazuje, co se stalo, když MM1 dostal fotografii sluncem posetého restauračního stolu s několika lahvemi piva a také obrázkem menu. Na otázku, kolik by někdo očekával, že zaplatí za „všechno pivo na stole“, model správně přečte správnou cenu a spočítá náklady.

Když byl ChatGPT spuštěn v listopadu 2022, mohl pouze přijímat a generovat text, ale nedávno jeho tvůrce OpenAI a další pracovali na rozšíření základní technologie velkého jazykového modelu pro práci s jinými druhy dat. Když Google loni v prosinci spustil Gemini (model, který nyní pohání svou odpověď na ChatGPT), společnost propagovala svou multimodální povahu jako začátek nového důležitého směru v AI. „Po vzestupu LLM se MLLM stávají další hranicí v základních modelech,“ píše se v článku společnosti Apple.

MM1 je relativně malý model měřený počtem „parametrů“ nebo vnitřních proměnných, které se upravují při trénování modelu. Kate Saenko, profesorka na Bostonské univerzitě, která se specializuje na počítačové vidění a strojové učení, říká, že by to inženýrům Applu mohlo usnadnit experimentování s různými tréninkovými metodami a vylepšeními, než se rozšíří, když narazí na něco slibného.

Saenko říká, že dokument MM1 poskytuje překvapivé množství podrobností o tom, jak byl model trénován pro podnikovou publikaci. Například inženýři za MM1 popisují triky pro zlepšení výkonu modelu včetně zvýšení rozlišení obrázků a smíchání textových a obrazových dat. Apple je známý svým utajením, ale již dříve prokázal neobvyklou otevřenost ohledně výzkumu AI, když se snažil přilákat talenty potřebné k soutěži v klíčové technologii.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com