Inżynieria w Anthropic wypuściła kolejny hit. Ich wewnętrzny podręcznik do oceny agentów AI. Oto najbardziej nieintuicyjna lekcja, którą z niego wyniosłem: Nie testuj kroków, które podjął twój agent. Testuj to, co faktycznie wyprodukował. To sprzeczne z każdą intuicją. Można by pomyśleć, że sprawdzanie każdego kroku zapewnia jakość. Ale agenci są kreatywni. Znajdują rozwiązania, których nie przewidziałeś. Kara za nieoczekiwane ścieżki sprawia, że twoje oceny stają się kruche. Liczy się ostateczny wynik. Testuj to bezpośrednio. Podręcznik dzieli oceny na trzy typy: - Oparte na kodzie: Szybkie i obiektywne, ale kruche na ważne wariacje. - Oparte na modelu: LLM jako sędzia z rubrykami. Elastyczne, ale wymaga kalibracji. - Ludzkie: Złoty standard, ale kosztowne. Używaj oszczędnie. Omawia również strategie oceny dla agentów kodujących, agentów konwersacyjnych, agentów badawczych i agentów użycia komputera. Kluczowe wnioski: - Zacznij od 20-50 przypadków testowych z rzeczywistymi porażkami - Każdy test powinien zaczynać się w czystym środowisku - Przeprowadzaj wiele prób, ponieważ wyniki modeli się różnią - Przeczytaj transkrypty. W ten sposób wychwycisz błędy w ocenie. Jeśli poważnie myślisz o dostarczaniu niezawodnych agentów, gorąco polecam przeczytanie tego. Link w następnym tweecie.