Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nový antropický výzkum: Měření autonomie AI agentů v praxi.
Analyzovali jsme miliony interakcí napříč Claude Code a naším API, abychom pochopili, kolik autonomie lidé agentům poskytují, kde jsou nasazeni a jaká rizika mohou představovat.
Čtěte více:
Agenti jsou již nasazováni napříč kontexty, od třídění e-mailů až po výzkum kybernetické bezpečnosti.
Porozumění tomuto spektru je klíčové pro bezpečné nasazení, přesto víme překvapivě málo o tom, jak lidé agenty skutečně využívají ve skutečném světě.
Většina zatáček podle Claudeova kódu je krátká (medián ~45 sekund). Ale nejdelší tahy ukazují, kam autonomie směřuje.
Za tři měsíce se délka tahu 99,9. percentilu téměř zdvojnásobila, z méně než 25 minut na více než 45 minut. Tento růst probíhá hladce napříč vydáním modelů.

Jak uživatelé získávají zkušenosti, mění se jejich strategie dohledu.
Noví uživatelé schvalují každou akci zvlášť. Při 750 sezeních je více než 40 % sezení plně automaticky schváleno.

Ale přerušení se s praxí také zvyšuje. Noví uživatelé přerušují Claude Code v 5 % kol, zatímco zkušenější uživatelé mají 9 %.
To naznačuje posun od schvalování každé akce k delegování a přerušování podle potřeby.

Claude Code také podporuje dohled tím, že se zastaví a klade otázky.
U složitějších úkolů Claude Code přerušuje pro upřesnění více než dvakrát častěji než přerušení lidí. Trénování modelů k rozpoznání nejistoty je důležitou, ale nedoceněnou bezpečnostní vlastností.

Většina agentních akcí na našem API je nízkoriziková. 73 % volání nástrojů se zdá mít člověka v okruhu a pouze 0,8 % je nevratných.
Ale na hranici vidíme agenty působící na bezpečnostní systémy, finanční transakce a produkční nasazení (i když některé mohou být hodnocení).

Softwarové inženýrství tvoří ~50 % volání agentických nástrojů na našem API, ale vidíme nové využití i v jiných odvětvích.
Jak se rozšiřuje hranice rizik a autonomie, stává se post-nasazení monitorování nezbytným. Doporučujeme dalším vývojářům modelů, aby tento výzkum rozšířili.

Ústřední lekcí této práce je, že autonomie je spolukonstruována modelem, uživatelem a produktem. Nelze ji plně charakterizovat pouze na základě předběžných hodnocení.
Podrobnosti a naše doporučení pro vývojáře a tvůrce politik najdete na blogu:
211
Top
Hodnocení
Oblíbené
