Společnosti jako OpenAI a Google již nějakou dobu nabízejí pokročilé funkce „uvažování“ jako další velký krok ve svých nejnovějších modelech umělé inteligence. Nyní však nová studie od šesti inženýrů Applu ukazuje, že matematické „uvažování“ zobrazované pokročilými velkými jazykovými modely může být extrémně křehké a nespolehlivé tváří v tvář zdánlivě triviálním změnám běžných problémů s benchmarkem.
Křehkost zdůrazněná v těchto nových výsledcích pomáhá podpořit předchozí výzkum naznačující, že použití pravděpodobnostního porovnávání vzorů LLM postrádá formální pochopení základních konceptů potřebných pro skutečně spolehlivé schopnosti matematického uvažování. „Současné LLM nejsou schopny skutečného logického uvažování,“ předpokládají vědci na základě těchto výsledků. „Místo toho se pokoušejí replikovat kroky uvažování pozorované v jejich tréninkových datech.“
Smíchejte to
V „GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models“ – aktuálně dostupném jako předtištěný papír – začíná šest výzkumníků společnosti Apple se standardizovanou sadou více než 8 000 matematických slovních úloh na úrovni základní školy, které se často používají. jako měřítko pro komplexní schopnosti uvažování moderních LLM. Poté zvolili nový přístup, kdy upravili část této testovací sady tak, aby dynamicky nahradila určitá jména a čísla novými hodnotami – takže otázka, zda Sophie získá 31 stavebních bloků pro svého synovce v GSM8K, by se mohla stát otázkou, zda Bill získá 19 stavebních bloků pro jeho bratr v novém hodnocení GSM-Symbolic.
Tento přístup pomáhá vyhnout se jakékoli potenciální „kontaminaci dat“, která může vyplynout ze statických otázek GSM8K vkládaných přímo do tréninkových dat modelu AI. Tyto náhodné změny zároveň vůbec nemění skutečnou obtížnost inherentního matematického uvažování, což znamená, že modely by teoreticky měly fungovat stejně dobře, když byly testovány na GSM-Symbolic jako GSM8K.
Místo toho, když výzkumníci testovali více než 20 nejmodernějších LLM na GSM-Symbolic, zjistili, že průměrná přesnost je ve srovnání s GSM8K celkově snížena, s poklesem výkonu mezi 0,3 procenta a 9,2 procenta v závislosti na modelu. Výsledky také ukázaly velký rozptyl mezi 50 samostatnými běhy GSM-Symbolic s různými názvy a hodnotami. Mezery s přesností až 15 procent mezi nejlepším a nejhorším průběhem byly v rámci jednoho modelu běžné a z nějakého důvodu měla změna čísel za následek horší přesnost než změna názvů.
Tento druh rozptylu – jak v rámci různých běhů GSM-Symbolic, tak ve srovnání s výsledky GSM8K – je více než trochu překvapivý, protože, jak zdůrazňují výzkumníci, „celkové kroky uvažování potřebné k vyřešení otázky zůstávají stejné“. Skutečnost, že takové malé změny vedou k tak proměnlivým výsledkům, naznačuje výzkumníkům, že tyto modely neprovádějí žádné „formální“ uvažování, ale spíše „pokusy“.[ing] k provedení určitého druhu porovnávání vzorů distribuce, srovnávání daných otázek a kroků řešení s podobnými, které lze vidět v trénovacích datech.“
Nenechte se rozptylovat
Přesto byl celkový rozptyl ukázaný pro GSM-Symbolické testy často relativně malý v celkovém schématu věcí. Například ChatGPT-4o od OpenAI klesla z 95,2 procenta přesnosti na GSM8K na stále působivých 94,9 procent na GSM-Symbolic. To je docela vysoká úspěšnost při použití obou benchmarků, bez ohledu na to, zda model samotný používá „formální“ uvažování v zákulisí (ačkoli celková přesnost u mnoha modelů prudce klesla, když výzkumníci přidali k problémům jen jeden nebo dva další logické kroky. ).
Testované LLM však dopadly mnohem hůř, když výzkumníci společnosti Apple upravili benchmark GSM-Symbolic přidáním „zdánlivě relevantních, ale nakonec nepodstatných výroků“ k otázkám. U této sady benchmarků „GSM-NoOp“ (zkratka pro „no operation“) může být otázka, kolik kiwi si někdo vybere za několik dní, upravena tak, aby zahrnovala vedlejší podrobnosti, že „pět z nich [the kiwis] byly o něco menší než průměr.“
Přidání těchto červených sledě vedlo k tomu, co výzkumníci nazvali „katastrofálním poklesem výkonu“ v přesnosti ve srovnání s GSM8K, v rozmezí od 17,5 procenta do neuvěřitelných 65,7 procent, v závislosti na testovaném modelu. Tyto masivní poklesy přesnosti zdůrazňují inherentní limity v používání jednoduchého „porovnání vzorů“ pro „převedení příkazů na operace, aniž by skutečně chápali jejich význam,“ píší vědci.
Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com