Anthropicin insinööriosasto julkaisi jälleen yhden hitin. Heidän sisäinen pelikirjansa tekoälyagenttien arviointiin. Tässä on kaikkein vastoin intuitiota oleva oppi, jonka siitä opin: Älä testaa agenttisi tekemiä vaiheita. Testaa, mitä se oikeasti tuotti. Tämä on vastoin kaikkia vaistoja. Luulisi, että jokaisen vaiheen tarkistaminen varmistaa laadun. Mutta agentit ovat luovia. He löytävät ratkaisuja, joita et osannut odottaa. Yllättävien reittien rankaiseminen tekee arvioistasi hauraita. Tärkeintä on lopputulos. Testaa se suoraan. Käsikirja erittelee kolme arvostelijatyyppiä: - Koodipohjainen: Nopea ja objektiivinen, mutta hauras ja pätevissä variaatioissa. - Mallipohjainen: LLM-tuomari, jossa on arviointikriteerit. Joustavaa, mutta vaatii kalibrointia. - Ihmiset: Kultainen standardi, mutta kallis. Käytä säästeliäästi. Se kattaa myös arviointistrategiat koodausagenteille, keskusteluagenteille, tutkimusagenteille ja tietokoneen käyttäjille. Tärkeimmät huomiot: - Aloita 20–50 testitapauksella todellisista epäonnistumisista - Jokaisen kokeen tulisi aloittaa puhtaasta ympäristöstä - Suorita useita kokeita, koska mallin tulokset vaihtelevat - Lue pöytäkirjat. Näin havaitset arviointibugit. Jos olet tosissasi luotettavien agenttien lähettämisen suhteen. Suosittelen lämpimästi lukemaan sen. Linkki seuraavassa twiitissä.