Cuando construyes agentes de IA, no trates los prompts como cadenas de configuración. Trátalos como lógica empresarial ejecutable. Porque eso es lo que realmente son. El blog de @arshdilbagi y esta conferencia de Stanford CS 224G presentan uno de los modelos mentales más claros que he visto para la evaluación de LLM. Deja de tratar las evaluaciones como pruebas unitarias. Eso funciona para software determinista. Para productos de LLM, crea una falsa confianza porque el uso en el mundo real cambia con el tiempo. Ejemplo: un prompt de seguros pasó 20 casos de evaluación. El equipo lo lanzó. En producción, apareció una nueva clase de solicitudes y falló silenciosamente. Sin caídas, sin alertas, solo respuestas incorrectas a gran escala. La solución no es "escribir más casos de evaluación", que es lo que muchos equipos hacen. Es construir evaluaciones como un bucle de retroalimentación vivo. Comienza con un pequeño conjunto, lanza, observa qué se rompe en producción, agrega esos fallos de nuevo y vuelve a ejecutar en cada cambio de prompt o modelo. ¿Qué fallo de evaluación sorprendió a tu equipo? Blog: Conferencia de Stanford CS 224G: