Ytterligare ett grymt inlägg från Anthropic! Det handlar helt om att förbättra dina agenter via utvärderingar. Här är mina snabba insikter från bloggen: De förmågor som gör agenter användbara (autonomi, intelligens, flexibilitet) är samma som gör dem svåra att utvärdera. Du kan inte bara köra enhetstester och förvänta dig att din agentiska app ska fungera. Denna guide förklarar det praktiska ramverket som Antropic-utvecklare använder för agentutvärderingar. De nämnde tre typer av bedömare, var och en med sina nackdelar: - Kodbaserade väghyvelare är snabba, billiga och reproducerbara, men sköra mot giltiga varianter. - Modellbaserade bedömare hanterar nyans- och öppna uppgifter, men är icke-deterministiska och kräver mänsklig kalibrering. - Mänskliga graderare håller guldstandardkvalitet, men är dyra och långsamma. De pratar också om två kategorier av utvärderingar som fyller olika syften. 1) Kompetensutvärderingar frågar "vad kan denna agent göra bra?" och börja med låga godkännandefrekvenser. 2) Regressionsutvärderingar frågar "kan den fortfarande hantera tidigare uppgifter?" och bör ligga nära 100%. Uppgifter som går från förmåga till regression representerar verkliga framsteg. För icke-determinism spelar två mått roll. pass@k mäter sannolikheten för minst en framgång i k försök. pass^k mäter sannolikheten att alla k försök lyckas. Dessa divergerar dramatiskt, vid k=10, pass@k kan närma sig 100 % medan pass^k sjunker till nära noll. Ett riktigt bra tips i bloggarna är att börja med 20–50 enkla uppgifter från verkliga misslyckanden istället för att vänta på perfektion. Konvertera manuella kontroller du redan gör till testfall. Betygsresultat, inte vägar som valts. Inkludera delpoäng för komplexa uppgifter. Vanliga fallgropar inkluderar rigid rättning som bestraffar motsvarande men annorlunda formaterade svar, tvetydiga uppgiftsspecifikationer och stokastiska uppgifter som är omöjliga att återskapa. ...