Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un autre post percutant d'Anthropic !
Il s'agit d'améliorer vos agents via des évaluations.
Voici mes rapides conclusions du blog :
Les capacités qui rendent les agents utiles (autonomie, intelligence, flexibilité) sont les mêmes qui les rendent difficiles à évaluer. Vous ne pouvez pas simplement exécuter des tests unitaires et vous attendre à ce que votre application agentique fonctionne.
Ce guide décompose le cadre pratique que les développeurs d'Anthropic utilisent pour les évaluations d'agents.
Ils ont mentionné trois types de correcteurs, chacun avec des compromis :
- Les correcteurs basés sur le code sont rapides, peu coûteux et reproductibles, mais fragiles face à des variations valides.
- Les correcteurs basés sur des modèles gèrent les nuances et les tâches ouvertes, mais sont non déterministes et nécessitent une calibration humaine.
- Les correcteurs humains sont de qualité standard or, mais coûteux et lents.
Ils parlent également de deux catégories d'évaluations qui servent des objectifs différents.
1) Les évaluations de capacité demandent "que peut bien faire cet agent ?" et commencent avec de faibles taux de réussite.
2) Les évaluations de régression demandent "peut-il encore gérer les tâches précédentes ?" et devraient rester près de 100 %. Les tâches passant de la capacité à la régression représentent un véritable progrès.
Pour la non-déterminisme, deux métriques sont importantes. pass@k mesure la probabilité d'au moins un succès en k tentatives. pass^k mesure la probabilité que tous les k essais réussissent. Ces deux métriques divergent considérablement, à k=10, pass@k peut approcher 100 % tandis que pass^k tombe près de zéro.
Un très bon conseil dans les blogs est de commencer avec 20-50 tâches simples issues d'échecs réels plutôt que d'attendre la perfection. Convertissez les vérifications manuelles que vous effectuez déjà en cas de test. Évaluez les sorties, pas les chemins empruntés. Incluez un crédit partiel pour les tâches complexes.
Les pièges courants incluent une notation rigide qui pénalise les réponses équivalentes mais formatées différemment, des spécifications de tâches ambiguës, et des tâches stochastiques impossibles à reproduire.
...

Meilleurs
Classement
Favoris
