Teknik di Anthropic menjatuhkan banger lain. Buku pedoman internal mereka untuk mengevaluasi agen AI. Inilah pelajaran paling berlawanan dengan intuisi yang saya pelajari darinya: Jangan menguji langkah-langkah yang diambil agen Anda. Uji apa yang sebenarnya dihasilkannya. Ini bertentangan dengan setiap naluri. Anda akan berpikir memeriksa setiap langkah memastikan kualitas. Tapi agen itu kreatif. Mereka menemukan solusi yang tidak Anda antisipasi. Menghukum jalan tak terduga hanya membuat eval Anda rapuh. Yang penting adalah hasil akhir. Uji itu secara langsung. Buku pedoman ini memecah tiga jenis penilai: - Berbasis kode: Cepat dan objektif, tetapi rapuh untuk variasi yang valid. - Berbasis model: LLM-sebagai-hakim dengan rubrik. Fleksibel, tetapi perlu kalibrasi. - Manusia: Standar emas, tapi mahal. Gunakan dengan hemat. Ini juga mencakup strategi evaluasi untuk agen pengkodean, agen percakapan, agen penelitian, dan agen penggunaan komputer. Kesimpulan utama: - Mulailah dengan 20-50 kasus uji dari kegagalan nyata - Setiap uji coba harus dimulai dari lingkungan yang bersih - Jalankan beberapa uji coba karena output model bervariasi - Baca transkrip. Ini adalah cara Anda menangkap bug penilaian. Jika Anda serius tentang pengiriman agen yang andal. Saya sangat merekomendasikan membacanya. Tautan di tweet berikutnya.