Agenti AI jsou příšerní pracovníci na volné noze

Dokonce i nejlepší Agenti umělé inteligence jsou v online práci na volné noze poměrně beznadějní, podle experimentu, který zpochybňuje myšlenku, že by umělá inteligence masově nahradila kancelářské pracovníky.

Remote Labor Index, nový benchmark vyvinutý výzkumníky ve společnosti Scale AI pro anotaci dat a neziskové organizaci Center for AI Safety (CAIS), měří schopnost hraničních modelů umělé inteligence automatizovat ekonomicky hodnotnou práci.

Výzkumníci poskytli několika předním agentům umělé inteligence řadu simulovaných prací na volné noze a zjistili, že i ti nejlepší mohli vykonávat méně než 3 procenta práce a vydělali 1 810 dolarů z možných 143 991 dolarů. Výzkumníci se podívali na několik nástrojů a zjistili, že nejschopnější je Manus ze stejnojmenného čínského startupu, následovaný Grokem z xAI, Claudem z Anthropic, ChatGPT z OpenAI a Gemini z Google.

„Doufám, že to poskytne mnohem přesnější dojmy o tom, co se děje se schopnostmi AI,“ říká Dan Hendrycks, ředitel CAIS. Dodává, že zatímco někteří agenti se za poslední zhruba rok výrazně zlepšili, neznamená to, že to bude pokračovat stejným tempem.

Velkolepý pokrok AI vedl ke spekulacím, že AI brzy překoná lidskou inteligenci a nahradí obrovské množství pracovníků. V březnu Dario Amodei, generální ředitel společnosti Anthropic, navrhl, že 90 procent kódovací práce bude automatizováno během několika měsíců.

Předchozí vlny umělé inteligence inspirovaly nesprávné předpovědi o přesunu zaměstnání, například pokud jde o bezprostřední nahrazení radiologů algoritmy umělé inteligence.

Výzkumníci vytvořili řadu úkolů na volné noze prostřednictvím ověřených pracovníků Upwork. Úkoly zahrnují řadu prací včetně grafického designu, úpravy videa, vývoje her a administrativních prací, jako je škrábání dat. Kombinovali popis každé úlohy s adresářem souborů potřebných k provedení práce a příkladem hotového projektu vytvořeného člověkem.

Hendrycks říká, že zatímco modely umělé inteligence se v posledních letech zlepšily v kódování, matematice a logickém uvažování, stále mají potíže s používáním různých nástrojů a prováděním složitých úkolů, které zahrnují řadu kroků. „Nemají dlouhodobou paměť a nemohou se neustále učit ze zkušeností. Nemohou získat dovednosti v práci jako lidé,“ říká.

Analýza nabízí protipól k benchmarku ekonomické práce, který v září nabídl OpenAI nazvaný GDPval, který má měřit ekonomicky hodnotnou práci. Podle GDPval se modely hraniční umělé inteligence, jako je GPT-5, blíží lidským schopnostem ve 220 úkolech napříč řadou kancelářských zakázek. OpenAI neposkytlo komentář.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com

Podobné příspěvky

Po	Út	St	Čt	Pá	So	Ne
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Výzkum umělé inteligence je čím dál těžší oddělit od geopolitiky

Apple stále plánuje prodávat iPhony, až bude 100

Nový dokument o AI staví generální ředitele do horkého křesla – ale jde to na ně příliš snadno

Zeptal jsem se ChatGPT 500 otázek. Zde jsou reklamy, které jsem viděl nejčastěji

Označení antropického dodavatelského řetězce-rizika zastaveno soudcem

Seznamte se s technickými reportéry, kteří používají umělou inteligenci k psaní a úpravě jejich příběhů

Senátoři chtějí vědět, kolik energie spotřebují datová centra

„Nikdy nezestárne“: Pornohvězdy přijímají klony umělé inteligence, aby zůstaly navždy mladé

Na spoustě těch videí s virovou umělou inteligencí ovoce je něco velmi temného

Agenti OpenClaw mohou být zaviněni do sebesabotáže

Agenti AI jsou příšerní pracovníci na volné noze

Naše Projekty:

Naše Projekty:

Návštěvnost: