Cuando construyas agentes de IA, no trates los prompts como cadenas de configuración. Trátalos como una lógica de negocio ejecutable. Porque eso es lo que realmente son. El blog de @arshdilbagi y esta conferencia de CS 224G de Stanford presentan uno de los modelos mentales más claros que he visto para la evaluación de un LLM. Deja de tratar las evaluaciones como pruebas unitarias. Eso funciona para software determinista. En los productos LLM, crea falsa confianza porque el uso real cambia con el tiempo. Ejemplo: un prompt de seguro superó 20 casos de evaluación. El equipo se desplazó. En producción, apareció una nueva clase de solicitudes que fracasó silenciosamente. Sin bloqueo, sin alertas, solo respuestas incorrectas a escala. La solución no es "escribir más casos de evaluación", que es lo que hacen muchos equipos. Está construyendo evaluaciones como un ciclo de retroalimentación vivo. Empieza con un set pequeño, envía, observa qué falla en producción, vuelve a añadir esos fallos y vuelve a ejecutarlo con cada indicación o cambio de modelo. ¿Qué fallo de evaluación pilló desprevenido a vuestro equipo? Blog: Conferencia CS 224G de Stanford: