Când construiești agenți AI, nu trata prompturile ca pe niște șiruri de configurare. Tratează-le ca pe o logică de afaceri executabilă. Pentru că asta sunt cu adevărat. Blogul lui @arshdilbagi și această prelegere CS 224G de la Stanford prezintă unul dintre cele mai clare modele mentale pe care le-am văzut pentru evaluarea LLM-urilor. Nu mai trata evaluările ca pe niște teste unitare. Asta funcționează pentru software determinist. Pentru produsele LLM, creează o încredere falsă deoarece utilizarea din lumea reală se schimbă în timp. Exemplu: un prompt de asigurare a trecut de 20 de cazuri de evaluare. Echipa a livrat. În producție, a apărut o nouă generație de cereri care a eșuat discret. Fără crash, fără alertă, doar răspunsuri greșite la scară. Soluția nu este "scrie mai multe cazuri de evaluare", așa cum fac multe echipe. Aceasta construiește evaluările ca un cerc viu de feedback. Începe cu un set mic, livrează, urmărește ce se strică în producție, adaugă acele eșecuri și rulează din nou la fiecare prompt sau schimbare de model. Ce eșec de evaluare v-a luat prin surprindere echipa? Blog: Prelegerea CS 224G de la Stanford: