Toinen mahtava postaus Anthropicilta! Kyse on agenttien parantamisesta arviointien kautta. Tässä ovat nopeat huomioni blogista: Ne kyvyt, jotka tekevät agenteista hyödyllisiä (autonomia, älykkyys, joustavuus), ovat samat, jotka tekevät niistä vaikeita arvioida. Et voi vain ajaa yksikkötestejä ja odottaa, että agenttisovelluksesi toimii. Tämä opas purkaa käytännön viitekehyksen, jota Anthropic-kehittäjät käyttävät agenttien arvioinneissa. He mainitsivat kolme arvostelijatyyppiä, joilla jokaisella oli kompromisseja: - Koodipohjaiset arvioijat ovat nopeita, edullisia ja toistettavissa, mutta hauraita päteville variaatioille. - Mallipohjaiset arvioijat käsittelevät vivahteita ja avoimia tehtäviä, mutta ovat epädeterministisiä ja vaativat ihmisen kalibrointia. - Ihmisen maamääritelmät ovat kultastandardia, mutta kalliita ja hitaita. He puhuvat myös kahdesta arviointikategoriasta, joilla on eri tarkoitukset. 1) Kykyarvioinnit kysyvät "mitä tämä agentti osaa hyvin?" ja aloittavat alhaisilla läpäisyprosenteilla. 2) Regressioarvioinnit kysyvät "pystyykö se edelleen hoitamaan aiemmat tehtävät?" ja sen pitäisi pysyä lähellä 100 %. Tehtävät, jotka siirtyvät kyvykkyydestä taantumiseen, edustavat todellista edistystä. Ei-determinismissä kaksi mittaria ovat tärkeitä. pass@k mittaa todennäköisyyttä vähintään yhteen onnistumiseen k-yrityksessä. pass^k mittaa todennäköisyyttä, että kaikki k kokeet onnistuvat. Nämä eroavat dramaattisesti, kohdassa k=10, pass@k voi lähestyä 100 %, kun pass^k laskee lähelle nollaa. Hyvä vinkki blogeissa on aloittaa 20–50 yksinkertaisella tehtävällä todellisista epäonnistumisista sen sijaan, että odottaisi täydellisyyttä. Muunna jo tekemäsi manuaaliset tarkistukset testitapauksiksi. Tasot, ei reitit, jotka on valittu. Sisällytä osittainen hyvitys monimutkaisista tehtävistä. Yleisiä sudenkuoppia ovat jäykät arvostelut, jotka rankaisevat vastaavia mutta eri muotoisia vastauksia, epämääräiset tehtävämäärittelyt ja stokastiset tehtävät, joita on mahdotonta toistaa. ...