Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Інженерний відділ Anthropic випустив ще один хіт.
Їхній внутрішній підхід для оцінки агентів ШІ.
Ось найнелогічніший урок, який я з цього виніс:
Не перевіряйте кроки, які зробив ваш агент. Перевірте, що він насправді виробляє.
Це суперечить усім інстинктам. Можна було б подумати, що перевірка кожного кроку гарантує якість. Але агенти креативні. Вони знаходять рішення, яких ви не очікували. Покарання несподіваних шляхів лише робить ваші оцінки крихкими.
Головне — це кінцевий результат. Перевірте це безпосередньо.
Ігровий посібник поділяє три типи оцінювачів:
- На основі коду: швидкий і об'єктивний, але крихкий до дійсних варіацій.
- Модель на основі: LLM-as-judge з рубриками. Гнучкий, але потребує калібрування.
- Людина: золотий стандарт, але дорогий. Використовуйте помірковано.
Вона також охоплює стратегії оцінки для агентів кодування, розмовних агентів, дослідницьких агентів та агентів використання комп'ютера.
Основні висновки:
- Починайте з 20-50 тестових випадків із реальних відмов
- Кожне випробування має починатися в чистому середовищі
- Запуск кількох випробувань, оскільки результати моделі відрізняються
- Прочитайте стенограми. Ось як ви виявляєте баги при оцінюванні.
Якщо ви серйозно налаштовані надсилати надійних агентів. Я щиро рекомендую її прочитати.
Посилання в наступному твіті.

Найкращі
Рейтинг
Вибране
