L'ingegneria di Anthropic ha pubblicato un'altra bomba. Il loro manuale interno per valutare gli agenti AI. Ecco la lezione più controintuitiva che ho imparato: Non testare i passaggi che il tuo agente ha seguito. Testa ciò che ha effettivamente prodotto. Questo va contro ogni istinto. Potresti pensare che controllare ogni passaggio garantisca qualità. Ma gli agenti sono creativi. Trovano soluzioni che non avevi previsto. Punire i percorsi inaspettati rende solo le tue valutazioni fragili. Ciò che conta è il risultato finale. Testalo direttamente. Il manuale suddivide tre tipi di valutatori: - Basato su codice: Veloce e obiettivo, ma fragile a variazioni valide. - Basato su modello: LLM come giudice con rubriche. Flessibile, ma necessita di calibrazione. - Umano: Standard d'oro, ma costoso. Usalo con parsimonia. Copre anche strategie di valutazione per agenti di codifica, agenti conversazionali, agenti di ricerca e agenti per l'uso del computer. Punti chiave: - Inizia con 20-50 casi di test da fallimenti reali - Ogni prova dovrebbe partire da un ambiente pulito - Esegui più prove poiché le uscite del modello variano - Leggi i trascritti. È così che catturi i bug di valutazione. Se sei serio riguardo alla spedizione di agenti affidabili. Ti consiglio vivamente di leggerlo. Link nel prossimo tweet.