Інженерний відділ Anthropic випустив ще один хіт. Їхній внутрішній підхід для оцінки агентів ШІ. Ось найнелогічніший урок, який я з цього виніс: Не перевіряйте кроки, які зробив ваш агент. Перевірте, що він насправді виробляє. Це суперечить усім інстинктам. Можна було б подумати, що перевірка кожного кроку гарантує якість. Але агенти креативні. Вони знаходять рішення, яких ви не очікували. Покарання несподіваних шляхів лише робить ваші оцінки крихкими. Головне — це кінцевий результат. Перевірте це безпосередньо. Ігровий посібник поділяє три типи оцінювачів: - На основі коду: швидкий і об'єктивний, але крихкий до дійсних варіацій. - Модель на основі: LLM-as-judge з рубриками. Гнучкий, але потребує калібрування. - Людина: золотий стандарт, але дорогий. Використовуйте помірковано. Вона також охоплює стратегії оцінки для агентів кодування, розмовних агентів, дослідницьких агентів та агентів використання комп'ютера. Основні висновки: - Починайте з 20-50 тестових випадків із реальних відмов - Кожне випробування має починатися в чистому середовищі - Запуск кількох випробувань, оскільки результати моделі відрізняються - Прочитайте стенограми. Ось як ви виявляєте баги при оцінюванні. Якщо ви серйозно налаштовані надсилати надійних агентів. Я щиро рекомендую її прочитати. Посилання в наступному твіті.