Wanneer je AI-agenten bouwt, behandel prompts dan niet als configuratiestrings. Behandel ze als uitvoerbare bedrijfslogica. Want dat zijn ze echt. De blog van @arshdilbagi en deze Stanford CS 224G lezing leggen een van de duidelijkste mentale modellen uit die ik heb gezien voor LLM-evaluatie. Stop met het behandelen van evaluaties als unittests. Dat werkt voor deterministische software. Voor LLM-producten creëert het valse zekerheid omdat het gebruik in de echte wereld in de loop van de tijd verandert. Voorbeeld: een verzekeringsprompt voldeed aan 20 evaluatiegevallen. Het team heeft het verzonden. In productie verscheen een nieuwe klasse verzoeken en faalde stilletjes. Geen crash, geen waarschuwing, gewoon verkeerde antwoorden op grote schaal. De oplossing is niet "meer evaluatiegevallen schrijven," wat veel teams doen. Het is het bouwen van evaluaties als een levende feedbackloop. Begin met een kleine set, verzend, kijk wat er in productie kapot gaat, voeg die mislukkingen weer toe en voer opnieuw uit bij elke wijziging van prompt of model. Welke evaluatiefout verraste jouw team? Blog: Stanford CS 224G lezing: