Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Die Ingenieure bei Anthropic haben wieder einen Knaller abgeliefert.
Ihr internes Handbuch zur Bewertung von KI-Agenten.
Hier ist die kontraintuitivste Lektion, die ich daraus gelernt habe:
Teste nicht die Schritte, die dein Agent unternommen hat. Teste, was er tatsächlich produziert hat.
Das widerspricht jedem Instinkt. Man würde denken, dass die Überprüfung jedes Schrittes die Qualität sichert. Aber Agenten sind kreativ. Sie finden Lösungen, die du nicht vorhergesehen hast. Unerwartete Wege zu bestrafen macht deine Bewertungen brüchig.
Was zählt, ist das Endergebnis. Teste das direkt.
Das Handbuch unterteilt drei Arten von Bewertenden:
- Code-basiert: Schnell und objektiv, aber anfällig für gültige Variationen.
- Modell-basiert: LLM-als-Richter mit Bewertungsrichtlinien. Flexibel, benötigt aber Kalibrierung.
- Menschlich: Goldstandard, aber teuer. Sparsam verwenden.
Es behandelt auch Bewertungsstrategien für Programmieragenten, Konversationsagenten, Forschungsagenten und Computerbenutzungsagenten.
Wichtige Erkenntnisse:
- Beginne mit 20-50 Testfällen aus realen Fehlern
- Jeder Versuch sollte in einer sauberen Umgebung beginnen
- Führe mehrere Versuche durch, da die Ausgaben des Modells variieren
- Lies die Transkripte. So fängst du Bewertungsfehler.
Wenn du es ernst meinst mit der Bereitstellung zuverlässiger Agenten, kann ich dir nur empfehlen, es zu lesen.
Link im nächsten Tweet.

Top
Ranking
Favoriten
