V 80. letech byli Andrew Barto a Rich Sutton považováni za výstřední oddané elegantní, ale nakonec odsouzené k myšlence -, které se stroje učí, jak to lidé a zvířata dělají ze zkušenosti.
Po desetiletích, s technikou, kterou propagovali, nyní stále více kritičtější pro moderní umělou inteligenci a programy, jako je Chatgpt, Barto a Sutton, získala Turing Award, nejvyšší čest v oblasti informatiky.
Barto, profesor emeritus na University of Massachusetts Amherst, a Sutton, profesor na Albertě University, propustil techniku známou jako posilovací učení, která zahrnuje koaxiální počítač k provádění úkolů prostřednictvím experimentu kombinovaným s pozitivní nebo negativní zpětnou vazbou.
„Když pro mě začala tato práce, bylo to nesmírně nemoderní,“ vzpomíná Barto s úsměvem a promluví o přiblížení z domova v Massachusetts. „Bylo to pozoruhodné.“ [it has] dosáhl určitého vlivu a určité pozornosti, “dodává Barto.
Posílení učení bylo snad nejvíce skvěle používáno Google DeepMind v roce 2016 k vybudování AlphaGo, programu, který se sám naučil, jak hrát neuvěřitelně komplexní a jemnou deskovou hru Go na odborný úroveň. Tato demonstrace vyvolala nový zájem o techniku, která byla použita v reklamě, optimalizaci využití energie centra, financování a designu čipů. Tento přístup má také dlouhou historii v robotice, kde může pomoci strojům naučit se provádět fyzické úkoly prostřednictvím pokusu a omylů.
V poslední době bylo pro vedení výstupu velkých jazykových modelů (LLMS) a produkci mimořádně schopných chatbotových programů zásadní posilovací učení. Stejná metoda se také používá k trénování modelů AI, aby napodobovaly lidské uvažování a budování schopnějších agentů AI.
Sutton však poznamenává, že metody použité k vedení LLM zahrnují lidi, kteří poskytují cíle, spíše než algoritmus, který se učí čistě prostřednictvím vlastního průzkumu. Říká, že mít stroje, které se naučí zcela samy o sobě, může být nakonec plodnější. „Velkou divizí je, zda.“ [AI is] učit se od lidí nebo zda se to učí z vlastní zkušenosti, “říká.
Barto a Suttonovo „Práce byla lynchpinem pokroku v AI v posledních několika desetiletích“, uvedl Jeff Dean, senior viceprezident společnosti Google, ve svém prohlášení Asociace pro výpočetní strojní zařízení (ACM), které rozdává Turing Award. „Nástroje, které vyvinuly, zůstávají ústředním pilířem rozmachu AI a vyvolaly hlavní pokroky.“
Posílení má v AI dlouhou a kostkovanou historii. Bylo to tam na úsvitu pole, když Alan Turing navrhl, aby se stroje mohly učit prostřednictvím zkušeností a zpětné vazby ve svém slavném papíru z roku 1950 „Výpočetní strojní zařízení a inteligence“, který zkoumá představu, že by stroj mohl někdy myslet jako člověk. Arthur Samuel, průkopník umělé inteligence, použil v roce 1955 vybudování jednoho z prvních programů strojového učení, systém schopný hrát dámy.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com