Weer een geweldige post van Anthropic! Het gaat allemaal om het verbeteren van je agents via evaluaties. Hier zijn mijn snelle inzichten uit de blog: De capaciteiten die agents nuttig maken (autonomie, intelligentie, flexibiliteit) zijn dezelfde die het moeilijk maken om ze te evalueren. Je kunt niet gewoon unit tests uitvoeren en verwachten dat je agentische app werkt. Deze gids legt het praktische kader uit dat Anthropic-ontwikkelaars gebruiken voor agent evaluaties. Ze noemden drie soorten beoordelaars, elk met hun voor- en nadelen: - Code-gebaseerde beoordelaars zijn snel, goedkoop en reproduceerbaar, maar kwetsbaar voor geldige variaties. - Model-gebaseerde beoordelaars kunnen nuance en open-eindige taken aan, maar zijn niet-deterministisch en vereisen menselijke kalibratie. - Menselijke beoordelaars zijn van goudstandaardkwaliteit, maar duur en traag. Ze bespreken ook twee categorieën van evaluaties die verschillende doeleinden dienen. 1) Capaciteitsevaluaties vragen "wat kan deze agent goed doen?" en beginnen bij lage slaagpercentages. 2) Regressevaluaties vragen "kan het nog steeds eerdere taken aan?" en moeten dicht bij 100% blijven. Taken die van capaciteit naar regressie gaan, vertegenwoordigen echte vooruitgang. Voor niet-determinisme zijn er twee belangrijke metrics. pass@k meet de kans op ten minste één succes in k pogingen. pass^k meet de kans dat alle k proeven slagen. Deze divergeren dramatisch; bij k=10 kan pass@k 100% benaderen terwijl pass^k bijna nul valt. Een echt goede tip in de blogs is om te beginnen met 20-50 eenvoudige taken uit echte mislukkingen in plaats van te wachten op perfectie. Zet handmatige controles die je al uitvoert om in testgevallen. Beoordeel outputs, niet de paden die zijn genomen. Inclusief gedeeltelijke punten voor complexe taken. Veelvoorkomende valkuilen zijn rigide beoordeling die equivalente maar anders geformatteerde antwoorden bestraft, vage taak specificaties en stochastische taken die onmogelijk te reproduceren zijn. ...