Šachové experimenty Google odhalují, jak zvýšit výkon AI

Jeho skupina se rozhodla to zjistit. Vytvořili novou, diverzifikovanou verzi AlphaZero, která zahrnuje několik systémů umělé inteligence, které trénovaly nezávisle a v různých situacích. Algoritmus, který řídí celý systém, funguje jako jakýsi virtuální dohazovač, řekl Zahavy: algoritmus navržený tak, aby identifikoval, který agent má největší šanci uspět, když je čas udělat krok. On a jeho kolegové také zakódovali „bonus za rozmanitost“ – odměnu pro systém, kdykoli vytáhl strategie z velkého výběru možností.

Když byl nový systém nastaven na hraní vlastních her, tým pozoroval velkou rozmanitost. Diverzifikovaný hráč s umělou inteligencí experimentoval s novými, efektními otevřeními a neotřelými – ale zvukovými – rozhodnutími o konkrétních strategiích, jako kdy a kde hradit. Ve většině zápasů porazila původní AlphaZero. Tým také zjistil, že diverzifikovaná verze dokáže vyřešit dvakrát více hádanek s výzvami než originál a dokáže vyřešit více než polovinu celkového katalogu hádanek Penrose.

„Myšlenka je taková, že místo hledání jednoho řešení nebo jedné politiky, která by porazila každého hráče, tady [it uses] myšlenku kreativní rozmanitosti,“ řekl Cully.

Díky přístupu k více a různým hrám, řekl Zahavy, diverzifikovaný AlphaZero měl více možností pro nepříjemné situace, když nastanou. „Pokud můžete ovládat druh her, které vidí, v podstatě ovládáte, jak se zobecní,“ řekl. Tyto podivné vnitřní odměny (a jejich související pohyby) by se mohly stát silnými stránkami pro různé způsoby chování. Pak by se systém mohl naučit posuzovat a oceňovat nesourodé přístupy a zjistit, kdy byly nejúspěšnější. „Zjistili jsme, že tato skupina agentů se může na těchto pozicích skutečně dohodnout.“

A co je zásadní, důsledky přesahují šachy.

Kreativita v reálném životě

Cully řekl, že diverzifikovaný přístup může pomoci jakémukoli systému umělé inteligence, nejen těm, které jsou založeny na posílení učení. Dlouho používal rozmanitost k trénování fyzických systémů, včetně šestinohého robota, který měl dovoleno zkoumat různé druhy pohybu, než jej úmyslně „zranil“, což mu umožnilo pokračovat v pohybu pomocí některých technik, které vyvinul dříve. „Snažili jsme se najít řešení, která se lišila od všech předchozích řešení, která jsme dosud našli.“ V poslední době také spolupracuje s výzkumnými pracovníky na využití rozmanitosti k identifikaci slibných nových kandidátů na drogy a vyvíjení účinných strategií obchodování s akciemi.

„Cílem je vytvořit velkou sbírku potenciálně tisíců různých řešení, kde se každé řešení velmi liší od toho druhého,“ řekl Cully. Takže – stejně jako se to naučil diverzifikovaný šachista – pro každý typ problému mohl celkový systém vybrat nejlepší možné řešení. Zahavyho systém umělé inteligence, řekl, jasně ukazuje, jak „hledání různých strategií pomáhá myslet mimo rámec a nacházet řešení“.

Zahavý má podezření, že aby systémy umělé inteligence mohly myslet kreativně, výzkumníci je prostě musí přimět, aby zvážili více možností. Tato hypotéza naznačuje zvláštní spojení mezi lidmi a stroji: Možná je inteligence jen otázkou výpočetního výkonu. U systému AI se kreativita možná scvrkává na schopnost zvážit a vybrat si z dostatečně velkého množství možností. Jak systém získává odměny za výběr různých optimálních strategií, tento druh kreativního řešení problémů se posiluje a posiluje. V konečném důsledku by teoreticky mohl napodobovat jakýkoli druh strategie řešení problémů, který je u lidí považován za kreativní. Kreativita by se stala výpočetním problémem.

Liemhetcharat poznamenal, že diverzifikovaný systém umělé inteligence pravděpodobně zcela nevyřeší širší problém zobecnění ve strojovém učení. Ale je to krok správným směrem. „Je to zmírnění jednoho z nedostatků,“ řekla.

Praktičtěji Zahavého výsledky rezonují s nedávným úsilím, které ukazuje, jak může spolupráce vést k lepším výkonům v těžkých úkolech mezi lidmi. Většinu hitů na seznamu Billboard 100 napsaly například týmy skladatelů, nikoli jednotlivci. A stále je co zlepšovat. Různorodý přístup je v současnosti výpočetně nákladný, protože musí zvažovat mnohem více možností než typický systém. Zahavý také není přesvědčen o tom, že i diverzifikovaný AlphaZero podchytí celé spektrum možností.

„Já stále [think] existuje prostor pro hledání různých řešení,“ řekl. „Není mi jasné, že vzhledem ke všem datům na světě ano.“ [only] na každou otázku jedna odpověď.“

Originální příběh přetištěno se svolením od časopis Quanta, redakčně nezávislá publikace Simonsova nadace jehož posláním je zlepšit veřejné chápání vědy tím, že pokryje vývoj výzkumu a trendy v matematice a fyzikálních vědách a vědách o živé přírodě.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com