Ein weiterer großartiger Beitrag von Anthropic! Es geht darum, Ihre Agenten durch Evaluierungen zu verbessern. Hier sind meine schnellen Erkenntnisse aus dem Blog: Die Fähigkeiten, die Agenten nützlich machen (Autonomie, Intelligenz, Flexibilität), sind die gleichen, die sie schwer zu bewerten machen. Man kann nicht einfach Unit-Tests durchführen und erwarten, dass Ihre agentenbasierte Anwendung funktioniert. Dieser Leitfaden erläutert den praktischen Rahmen, den die Entwickler von Anthropic für die Agenten-Evaluierungen verwenden. Sie erwähnten drei Arten von Bewertenden, jede mit ihren Vor- und Nachteilen: - Code-basierte Bewertende sind schnell, kostengünstig und reproduzierbar, aber anfällig für gültige Variationen. - Modell-basierte Bewertende können Nuancen und offene Aufgaben bewältigen, sind jedoch nicht deterministisch und erfordern menschliche Kalibrierung. - Menschliche Bewertende sind von goldstandard Qualität, aber teuer und langsam. Sie sprechen auch über zwei Kategorien von Evaluierungen, die unterschiedliche Zwecke erfüllen. 1) Fähigkeits-Evaluierungen fragen "Was kann dieser Agent gut?" und beginnen mit niedrigen Bestehensquoten. 2) Regressionsevaluierungen fragen "Kann er immer noch frühere Aufgaben bewältigen?" und sollten nahe 100% bleiben. Aufgaben, die von der Fähigkeit zur Regression übergehen, stellen echten Fortschritt dar. Für die Nicht-Determinismus sind zwei Metriken wichtig. pass@k misst die Wahrscheinlichkeit, dass mindestens ein Erfolg in k Versuchen erzielt wird. pass^k misst die Wahrscheinlichkeit, dass alle k Versuche erfolgreich sind. Diese divergieren dramatisch; bei k=10 kann pass@k 100% erreichen, während pass^k nahe null fällt. Ein wirklich guter Tipp im Blog ist, mit 20-50 einfachen Aufgaben aus realen Fehlern zu beginnen, anstatt auf Perfektion zu warten. Wandeln Sie manuelle Überprüfungen, die Sie bereits durchführen, in Testfälle um. Bewerten Sie Ausgaben, nicht die gewählten Wege. Berücksichtigen Sie Teilpunkte für komplexe Aufgaben. Häufige Fallstricke sind starre Bewertungen, die äquivalente, aber unterschiedlich formatierte Antworten bestrafen, mehrdeutige Aufgabenbeschreibungen und stochastische Aufgaben, die unmöglich zu reproduzieren sind. ...