DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Engineering bij Anthropic heeft weer een geweldige publicatie uitgebracht. Hun interne handleiding voor het evalueren van AI-agenten. Hier is de meest tegenintuïtieve les die ik daaruit heb geleerd: Test niet de stappen die je agent heeft genomen. Test wat het daadwerkelijk heeft geproduceerd. Dit gaat tegen elke instinct in. Je zou denken dat het controleren van elke stap de kwaliteit waarborgt. Maar agenten zijn creatief. Ze vinden oplossingen die je niet had voorzien. Het straffen van onverwachte paden maakt je evaluaties kwetsbaar. Wat telt is het eindresultaat. Test dat direct. De handleiding legt drie soorten beoordelaars uit: - Code-gebaseerd: Snel en objectief, maar kwetsbaar voor geldige variaties. - Model-gebaseerd: LLM-als-rechter met rubrieken. Flexibel, maar vereist kalibratie. - Menselijk: Gouden standaard, maar duur. Sparend gebruiken. Het behandelt ook evaluatiestrategieën voor coderingsagenten, conversatie-agenten, onderzoeksagenten en computergebruik-agenten. Belangrijke punten: - Begin met 20-50 testgevallen van echte mislukkingen - Elke proef moet beginnen vanuit een schone omgeving - Voer meerdere proeven uit, aangezien modeluitvoer varieert - Lees de transcripties. Dit is hoe je beoordelingsfouten opmerkt. Als je serieus bent over het verzenden van betrouwbare agenten, raad ik ten zeerste aan om het te lezen. Link in de volgende tweet.

Boven

Positie

Favorieten