Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Engineering bij Anthropic heeft weer een geweldige publicatie uitgebracht.
Hun interne handleiding voor het evalueren van AI-agenten.
Hier is de meest tegenintuïtieve les die ik daaruit heb geleerd:
Test niet de stappen die je agent heeft genomen. Test wat het daadwerkelijk heeft geproduceerd.
Dit gaat tegen elke instinct in. Je zou denken dat het controleren van elke stap de kwaliteit waarborgt. Maar agenten zijn creatief. Ze vinden oplossingen die je niet had voorzien. Het straffen van onverwachte paden maakt je evaluaties kwetsbaar.
Wat telt is het eindresultaat. Test dat direct.
De handleiding legt drie soorten beoordelaars uit:
- Code-gebaseerd: Snel en objectief, maar kwetsbaar voor geldige variaties.
- Model-gebaseerd: LLM-als-rechter met rubrieken. Flexibel, maar vereist kalibratie.
- Menselijk: Gouden standaard, maar duur. Sparend gebruiken.
Het behandelt ook evaluatiestrategieën voor coderingsagenten, conversatie-agenten, onderzoeksagenten en computergebruik-agenten.
Belangrijke punten:
- Begin met 20-50 testgevallen van echte mislukkingen
- Elke proef moet beginnen vanuit een schone omgeving
- Voer meerdere proeven uit, aangezien modeluitvoer varieert
- Lees de transcripties. Dit is hoe je beoordelingsfouten opmerkt.
Als je serieus bent over het verzenden van betrouwbare agenten, raad ik ten zeerste aan om het te lezen.
Link in de volgende tweet.

Boven
Positie
Favorieten
