Agenti AI jsou příšerní pracovníci na volné noze



Dokonce i nejlepší Agenti umělé inteligence jsou v online práci na volné noze poměrně beznadějní, podle experimentu, který zpochybňuje myšlenku, že by umělá inteligence masově nahradila kancelářské pracovníky.

Remote Labor Index, nový benchmark vyvinutý výzkumníky ve společnosti Scale AI pro anotaci dat a neziskové organizaci Center for AI Safety (CAIS), měří schopnost hraničních modelů umělé inteligence automatizovat ekonomicky hodnotnou práci.

Výzkumníci poskytli několika předním agentům umělé inteligence řadu simulovaných prací na volné noze a zjistili, že i ti nejlepší mohli vykonávat méně než 3 procenta práce a vydělali 1 810 dolarů z možných 143 991 dolarů. Výzkumníci se podívali na několik nástrojů a zjistili, že nejschopnější je Manus ze stejnojmenného čínského startupu, následovaný Grokem z xAI, Claudem z Anthropic, ChatGPT z OpenAI a Gemini z Google.

„Doufám, že to poskytne mnohem přesnější dojmy o tom, co se děje se schopnostmi AI,“ říká Dan Hendrycks, ředitel CAIS. Dodává, že zatímco někteří agenti se za poslední zhruba rok výrazně zlepšili, neznamená to, že to bude pokračovat stejným tempem.

Velkolepý pokrok AI vedl ke spekulacím, že AI brzy překoná lidskou inteligenci a nahradí obrovské množství pracovníků. V březnu Dario Amodei, generální ředitel společnosti Anthropic, navrhl, že 90 procent kódovací práce bude automatizováno během několika měsíců.

Předchozí vlny umělé inteligence inspirovaly nesprávné předpovědi o přesunu zaměstnání, například pokud jde o bezprostřední nahrazení radiologů algoritmy umělé inteligence.

Výzkumníci vytvořili řadu úkolů na volné noze prostřednictvím ověřených pracovníků Upwork. Úkoly zahrnují řadu prací včetně grafického designu, úpravy videa, vývoje her a administrativních prací, jako je škrábání dat. Kombinovali popis každé úlohy s adresářem souborů potřebných k provedení práce a příkladem hotového projektu vytvořeného člověkem.

Hendrycks říká, že zatímco modely umělé inteligence se v posledních letech zlepšily v kódování, matematice a logickém uvažování, stále mají potíže s používáním různých nástrojů a prováděním složitých úkolů, které zahrnují řadu kroků. „Nemají dlouhodobou paměť a nemohou se neustále učit ze zkušeností. Nemohou získat dovednosti v práci jako lidé,“ říká.

Analýza nabízí protipól k benchmarku ekonomické práce, který v září nabídl OpenAI nazvaný GDPval, který má měřit ekonomicky hodnotnou práci. Podle GDPval se modely hraniční umělé inteligence, jako je GPT-5, blíží lidským schopnostem ve 220 úkolech napříč řadou kancelářských zakázek. OpenAI neposkytlo komentář.


Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com

Holky na privát z celé ČR najdete na NaPrivat.net Recenze na sexuální služby v ČR - Noření.cz