トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
またAnthropicからの素晴らしい投稿です!
評価を通じてエージェントを向上させることがすべてです。
ブログからの私の簡単なポイントは以下の通りです:
エージェントを有用にする能力(自律性、知能性、柔軟性)は、評価を難しくしているのと同じです。ユニットテストを実行すればエージェントアプリが動くと期待することはできません。
このガイドでは、Anthropic開発者がエージェント評価に使う実用的なフレームワークを分解して解説します。
彼らは3種類のグレーダーについて言及しており、それぞれにトレードオフがあります。
- コードベースのグレーダーは高速で安価かつ再現性が高いですが、有効なバリエーションには脆弱です。
- モデルベースのグレーダーは微妙で開放的なタスクを扱いますが、非決定的であり、人間のキャリブレーションが必要です。
- 人間グレーダーはゴールドスタンダード品質ですが、高価で遅いです。
また、異なる目的を果たす2つの評価カテゴリーについても言及しています。
1) 能力評価は「このエージェントは何が得意か?」と問い、低い合格率から始めます。
2) 回帰評価は「以前のタスクをまだ処理できるか?」と問い、ほぼ100%のままでいるべきです。能力から回帰へと段階的に進むタスクは、実際の進歩を示しています。
非決定性においては、2つの指標が重要です。pass@k k回の試みで少なくとも1回成功する確率を測定します。pass^kはすべてのK試行が成功する確率を測定します。これらは大きく分岐し、k=10のとき、pass^kがほぼゼロに近づく間に、pass^k pass@kほぼゼロに近づくことができます。
ブログでのとても良いアドバイスは、完璧を待つのではなく、実際の失敗から20〜50件の簡単なタスクから始めることです。すでに行っている手動チェックをテストケースに変換しましょう。成績は進む道ではなく、成績の出力です。複雑な課題には部分的な単位を含めましょう。
よくある落とし穴には、同等であってもフォーマットが異なる回答にペナルティを与える厳格な採点、曖昧なタスク仕様、再現不可能な確率的タスクなどがあります。
...

トップ
ランキング
お気に入り
