Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nouvelle recherche d'Anthropic : Mesurer l'autonomie des agents IA en pratique.
Nous avons analysé des millions d'interactions à travers Claude Code et notre API pour comprendre combien d'autonomie les gens accordent aux agents, où ils sont déployés et quels risques ils peuvent poser.
Lisez la suite :
Des agents sont déjà déployés dans des contextes allant du triage des e-mails à la recherche en cybersécurité.
Comprendre ce spectre est essentiel pour un déploiement sûr, pourtant nous savons étonnamment peu de choses sur la façon dont les gens utilisent réellement les agents dans le monde réel.
La plupart des tours de Claude Code sont courts (médiane d'environ 45 secondes). Mais les tours les plus longs montrent où l'autonomie est en train d'évoluer.
En trois mois, la durée des tours au 99,9e percentile a presque doublé, passant de moins de 25 minutes à plus de 45 minutes. Cette croissance est fluide à travers les versions du modèle.

À mesure que les utilisateurs acquièrent de l'expérience, leur stratégie de supervision évolue.
Les nouveaux utilisateurs approuvent chaque action individuellement. Après 750 sessions, plus de 40 % des sessions sont entièrement auto-approuvées.

Mais les interruptions augmentent également avec l'expérience. Les nouveaux utilisateurs interrompent Claude Code dans 5 % des tours, contre 9 % pour les utilisateurs plus expérimentés.
Cela suggère un passage de l'approbation de chaque action à la délégation et à l'interruption lorsque cela est nécessaire.

Claude Code encourage également la surveillance en s'arrêtant pour poser des questions.
Sur des tâches complexes, Claude Code fait une pause pour demander des clarifications plus de deux fois plus souvent que les humains ne l'interrompent. Former des modèles à reconnaître l'incertitude est une propriété de sécurité importante et sous-estimée.

La plupart des actions des agents sur notre API sont à faible risque. 73 % des appels d'outils semblent impliquer un humain, et seulement 0,8 % sont irréversibles.
Mais à la frontière, nous voyons des agents agir sur des systèmes de sécurité, des transactions financières et des déploiements en production (bien que certains puissent être des évaluations).

L'ingénierie logicielle représente environ 50 % des appels d'outils agentiques sur notre API, mais nous observons une utilisation émergente dans d'autres secteurs.
À mesure que la frontière du risque et de l'autonomie s'élargit, la surveillance post-déploiement devient essentielle. Nous encourageons d'autres développeurs de modèles à étendre cette recherche.

Une leçon centrale de ce travail est que l'autonomie est co-construite par le modèle, l'utilisateur et le produit. Elle ne peut pas être entièrement caractérisée par des évaluations pré-déploiement seules.
Pour plus de détails, et nos recommandations aux développeurs et aux décideurs, consultez le blog :
215
Meilleurs
Classement
Favoris
