Lorsque vous construisez des agents AI, ne traitez pas les invites comme des chaînes de configuration. Traitez-les comme une logique métier exécutable. Parce que c'est vraiment ce qu'elles sont. Le blog de @arshdilbagi et ce cours CS 224G de Stanford présentent l'un des modèles mentaux les plus clairs que j'ai vus pour l'évaluation des LLM. Arrêtez de traiter les évaluations comme des tests unitaires. Cela fonctionne pour les logiciels déterministes. Pour les produits LLM, cela crée une fausse confiance car l'utilisation dans le monde réel change avec le temps. Exemple : une invite d'assurance a réussi 20 cas d'évaluation. L'équipe a expédié. En production, une nouvelle classe de demandes est apparue et a échoué discrètement. Pas de crash, pas d'alerte, juste des réponses incorrectes à grande échelle. La solution n'est pas "écrire plus de cas d'évaluation", ce que beaucoup d'équipes font. Il s'agit de construire des évaluations comme une boucle de rétroaction vivante. Commencez avec un petit ensemble, expédiez, observez ce qui casse en production, ajoutez ces échecs, et relancez à chaque changement d'invite ou de modèle. Quel échec d'évaluation a pris votre équipe au dépourvu ? Blog : Cours CS 224G de Stanford :