またAnthropicからの素晴らしい投稿です! 評価を通じてエージェントを向上させることがすべてです。 ブログからの私の簡単なポイントは以下の通りです: エージェントを有用にする能力(自律性、知能性、柔軟性)は、評価を難しくしているのと同じです。ユニットテストを実行すればエージェントアプリが動くと期待することはできません。 このガイドでは、Anthropic開発者がエージェント評価に使う実用的なフレームワークを分解して解説します。 彼らは3種類のグレーダーについて言及しており、それぞれにトレードオフがあります。 - コードベースのグレーダーは高速で安価かつ再現性が高いですが、有効なバリエーションには脆弱です。 - モデルベースのグレーダーは微妙で開放的なタスクを扱いますが、非決定的であり、人間のキャリブレーションが必要です。 - 人間グレーダーはゴールドスタンダード品質ですが、高価で遅いです。 また、異なる目的を果たす2つの評価カテゴリーについても言及しています。 1) 能力評価は「このエージェントは何が得意か?」と問い、低い合格率から始めます。 2) 回帰評価は「以前のタスクをまだ処理できるか?」と問い、ほぼ100%のままでいるべきです。能力から回帰へと段階的に進むタスクは、実際の進歩を示しています。 非決定性においては、2つの指標が重要です。pass@k k回の試みで少なくとも1回成功する確率を測定します。pass^kはすべてのK試行が成功する確率を測定します。これらは大きく分岐し、k=10のとき、pass^kがほぼゼロに近づく間に、pass^k pass@kほぼゼロに近づくことができます。 ブログでのとても良いアドバイスは、完璧を待つのではなく、実際の失敗から20〜50件の簡単なタスクから始めることです。すでに行っている手動チェックをテストケースに変換しましょう。成績は進む道ではなく、成績の出力です。複雑な課題には部分的な単位を含めましょう。 よくある落とし穴には、同等であってもフォーマットが異なる回答にペナルティを与える厳格な採点、曖昧なタスク仕様、再現不可能な確率的タスクなどがあります。 ...