Wenn Sie KI-Agenten erstellen, behandeln Sie Eingabeaufforderungen nicht wie Konfigurationszeichenfolgen. Behandeln Sie sie wie ausführbare Geschäftslogik. Denn genau das sind sie. Der Blog von @arshdilbagi und diese Stanford CS 224G-Vorlesung legen eines der klarsten mentalen Modelle dar, die ich für die Bewertung von LLMs gesehen habe. Hören Sie auf, Bewertungen wie Unit-Tests zu behandeln. Das funktioniert für deterministische Software. Für LLM-Produkte schafft es falsches Vertrauen, weil sich die Nutzung in der realen Welt im Laufe der Zeit ändert. Beispiel: Eine Versicherungsaufforderung hat 20 Bewertungsfälle bestanden. Das Team hat ausgeliefert. In der Produktion tauchte eine neue Klasse von Anfragen auf und schlug leise fehl. Kein Absturz, keine Warnung, nur falsche Antworten im großen Maßstab. Die Lösung besteht nicht darin, "mehr Bewertungsfälle zu schreiben", was viele Teams tun. Es geht darum, Bewertungen als lebendigen Feedback-Loop zu erstellen. Beginnen Sie mit einer kleinen Menge, liefern Sie aus, beobachten Sie, was in der Produktion kaputtgeht, fügen Sie diese Fehler wieder hinzu und führen Sie bei jeder Änderung der Eingabeaufforderung oder des Modells erneut aus. Welches Bewertungsversagen hat Ihr Team überrascht? Blog: Stanford CS 224G-Vorlesung: