Slova, která prozrazují generativní text umělé inteligence

Zatím dokonce Společnosti s umělou inteligencí měly problém přijít s nástroji, které dokážou spolehlivě zjistit, kdy byl text vygenerován pomocí velkého jazykového modelu. Nyní skupina výzkumníků vytvořila novou metodu pro odhadování využití LLM napříč velkým souborem vědeckého psaní měřením, která „nadbytečná slova“ se začala objevovat mnohem častěji během éry LLM (tj. 2023 a 2024). Výsledky „naznačují, že alespoň 10 procent abstraktů z roku 2024 bylo zpracováno pomocí LLM,“ tvrdí vědci.

V předtištěném dokumentu zveřejněném začátkem tohoto měsíce čtyři výzkumníci z německé univerzity v Tübingenu a Northwestern University uvedli, že se inspirovali studiemi, které měřily dopad pandemie Covid-19 tím, že sledovaly nadměrnou úmrtnost ve srovnání s nedávnou minulostí. Podobným pohledem na „nadměrné používání slov“ poté, co byly nástroje pro psaní LLM koncem roku 2022 široce dostupné, výzkumníci zjistili, že „vznik LLM vedl k náhlému zvýšení frekvence určitých stylových slov“, což bylo „bezprecedentní v obou kvalita a kvantita.“

Ponořit se dovnitř

Aby vědci změřili tyto změny slovní zásoby, analyzovali 14 milionů papírových abstraktů publikovaných na PubMed v letech 2010 až 2024, přičemž sledovali relativní frekvenci každého slova, jak se každý rok objevovalo. Poté porovnali očekávanou frekvenci těchto slov (na základě trendové linie před rokem 2023) se skutečnou frekvencí těchto slov v abstraktech z let 2023 a 2024, kdy byly LLM široce používány.

Výsledky objevily řadu slov, která byla v těchto vědeckých abstraktech před rokem 2023 extrémně neobvyklá a která po zavedení LLM náhle vzrostla na popularitě. Například slovo „dolves“ se v roce 2024 objevuje v 25krát větším počtu dokumentů, než by očekával trend před LLM; používání slov jako „předvedení“ a „podtržítka“ se také devětkrát zvýšilo. Jiná dříve běžná slova se v abstraktech po LLM stala výrazně běžnější: četnost „potenciálu“ se například zvýšila o 4,1 procentního bodu, „zjištění“ o 2,7 procentního bodu a „zásadní“ o 2,6 procentního bodu.

K těmto druhům změn v používání slov může samozřejmě dojít nezávisle na používání LLM – přirozený vývoj jazyka znamená, že slova někdy zacházejí a vycházejí ze stylu. Vědci však zjistili, že v době před LLM byly tak masivní a náhlé meziroční nárůsty pozorovány pouze u slov souvisejících s významnými světovými zdravotními událostmi: „ebola“ v roce 2015; „zika“ v roce 2017; a slova jako „koronavirus“, „uzamčení“ a „pandemie“ v období 2020 až 2022.

V období po LLM však vědci našli stovky slov s náhlým, výrazným nárůstem vědeckého použití, která neměla žádnou společnou vazbu na světové události. Ve skutečnosti, zatímco přebytečná slova během pandemie Covid byla v drtivé většině podstatnými jmény, výzkumníci zjistili, že slova s frekvenčním nárazem po LLM byla v drtivé většině „slova stylu“, jako jsou slovesa, přídavná jména a příslovce (malý vzorek: „napříč, navíc , komplexní, zásadní, povznášející, vystavené, vhledy, zejména, zejména, uvnitř“).

Toto není zcela nové zjištění – například v nedávné minulosti byla široce zaznamenána zvýšená prevalence „ponoření“ ve vědeckých pracích. Ale předchozí studie se obecně spoléhaly na srovnání se vzorky lidského psaní „základní pravdy“ nebo seznamy předdefinovaných LLM markerů získaných mimo studii. Soubor abstraktů před rokem 2023 zde funguje jako vlastní efektivní kontrolní skupina, která ukazuje, jak se celkově změnil výběr slovní zásoby v éře po LLM.

Složitá souhra

Zdůrazněním stovek takzvaných „označovacích slov“, která se v post-LLM éře stala podstatně běžnější, lze někdy snadno rozpoznat výmluvné známky používání LLM. Vezměte si tento příklad abstraktní linie vyvolané výzkumníky se zvýrazněnými značkami: „A obsáhlý pochopení složitá souhra mezi […] a […] je stěžejní pro účinné terapeutické strategie.“

Po provedení některých statistických měření vzhledu značkových slov v jednotlivých dokumentech výzkumníci odhadují, že nejméně 10 procent dokumentů po roce 2022 v korpusu PubMed bylo napsáno s alespoň nějakou pomocí LLM. Toto číslo by mohlo být ještě vyšší, říkají vědci, protože v jejich sadě by mohly chybět abstrakty asistované LLM, které neobsahují žádné ze značkovacích slov, které identifikovali.

Čerpáme z těchto zdrojů: google.com, science.org, newatlas.com, wired.com, pixabay.com