Exploiter Idée de méta-benchmark : Une collection de bases d'agents (AGENTS.md, docs, compétences, hooks) qui encapsulent des applications non triviales, chacune avec un seul prompt pour transformer l'application en une seule fois à partir de zéro. Lorsque de nouveaux agents de codage ou modèles sortent, nous pouvons les tester contre la base pour comparer directement aux versions précédentes du modèle. "Ce modèle a écrit un navigateur à partir de zéro à partir de la base de navigateur standard avec X% de complétude des fonctionnalités et seulement Y lignes de code en Z heures pour $XYZ." Imaginez voir ce navigateur développé par Cursor à travers le prisme de chaque mise à jour de modèle suivante. Quelle était la qualité du code ? Quelle était la rapidité du rendu ? Quelle était l'exhaustivité de l'ensemble des fonctionnalités ? Combien de temps l'agent a-t-il eu pour fonctionner ? Quel était le coût total des tokens ? Une sorte de CSS Zen Garden (qui a beaucoup contribué à faire avancer les normes des navigateurs) pour les bases d'agents. J'ai l'impression que nous avons tous ressenti la différence dans Codex 5.4 Extra High (si ce n'est pas le cas, arrêtez de lire ce post et essayez-le immédiatement), mais nous n'avons toujours pas de moyen de capturer dans un benchmark l'expérience qualitative de son utilisation en tant que développeur, en particulier pour des mesures comme l'architecture et la qualité du code.