Poslední dva týdny před uzávěrkou byly zběsilé. Ačkoli oficiálně někteří z týmu měli stále stoly v budově 1945, většinou pracovali v roce 1965, protože v mikrokuchyni měli lepší kávovar na espresso. „Lidé nespali,“ říká Gomez, který jako stážista žil v neustálém šílenství při ladění a také produkoval vizualizace a diagramy pro noviny. V takových projektech je běžné dělat ablace – vyndat věci, aby se zjistilo, zda to, co zbývá, stačí k dokončení práce.
„Byly tam všechny možné kombinace triků a modulů – který pomůže, který nepomůže. Pojďme to vytrhnout. Pojďme to nahradit tímto,“ říká Gomez. „Proč se model chová tímto neintuitivním způsobem? Oh, je to proto, že jsme si nezapomněli udělat maskování správně. Už to funguje? OK, přejděte na další. Všechny tyto součásti toho, čemu nyní říkáme transformátor, byly výstupem tohoto extrémně rychlého, iterativního pokusu a omylu.“ Ablace, podporované Shazeerovými implementacemi, vytvořily „něco minimalistického,“ říká Jones. „Noam je čaroděj.“
Vaswani vzpomíná, jak jednou v noci havaroval na kancelářské pohovce, když tým psal noviny. Když zíral na závěsy, které oddělovaly pohovku od zbytku místnosti, udivil ho vzor na látce, který mu připadal jako synapse a neurony. Gomez tam byl a Vaswani mu řekl, že to, na čem pracují, překoná strojový překlad. „Nakonec, stejně jako u lidského mozku, musíte všechny tyto modality – řeč, zvuk, vidění – sjednotit do jediné architektury,“ říká. „Měl jsem silné tušení, že jsme na něčem obecnějším.“
Ve vyšších patrech Googlu však byla práce vnímána jen jako další zajímavý projekt AI. Zeptal jsem se několika lidí z transformátorů, zda je jejich šéfové někdy svolali k aktualizacím projektu. Ne tak moc. Ale „rozuměli jsme, že to může být docela velký problém,“ říká Uszkoreit. „A způsobilo to, že jsme byli skutečně posedlí jednou z vět v novinách ke konci, kde komentujeme budoucí práci.“
Tato věta předjímala, co by mohlo následovat – použití modelů transformátorů v podstatě na všechny formy lidského vyjádření. „Jsme nadšení z budoucnosti modelů založených na pozornosti,“ napsali. „Plánujeme rozšířit transformátor na problémy zahrnující jiné vstupní a výstupní modality než text“ a prozkoumat „obrázky, zvuk a video“.
Pár nocí před uzávěrkou si Uszkoreit uvědomil, že potřebují titul. Jones poznamenal, že tým radikálně odmítl přijaté osvědčené postupy, zejména LSTM, pro jednu techniku: pozornost. The Beatles, připomněl Jones, pojmenovali píseň „All You Need Is Love“. Proč ten papír nenazvat „Pozornost je vše, co potřebujete“?
Brouci?
„Jsem Brit,“ říká Jones. „Doslova to trvalo pět sekund přemýšlení. Nemyslel jsem si, že to použijí.“
Pokračovali ve shromažďování výsledků svých experimentů až do uzávěrky. „Anglicko-francouzská čísla přišla asi pět minut předtím, než jsme odevzdali papír,“ říká Parmar. „Seděl jsem v mikrokuchyni v roce 1965 a dostal jsem to poslední číslo.“ Zbývaly sotva dvě minuty a papír odeslali.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com