モデル能力に関するベンチマークは多すぎて、エージェントの仕事に関するベンチマークは少なすぎます。経済的に重要なのは、AIがAPI呼び出しを通じて質問を正しく理解する能力ではなく、ツールと問題を解決する能力を組み合わせる能力です。それは十分に測定されていません。
能力は弱いが、いつ間違っているのかを把握でき、その弱点を克服するために他のアプローチを使うのが得意なモデルは、人類の最後の試験で数点高い点を取ったモデルよりもはるかに実用的である。しかし、私たちのベンチマークでは、これは見られません。
また、エージェント能力が崩壊する理由を示す、より優れたベンチマークも必要です。たとえば、ビジョンは、現実世界と対話する際の多くのエージェントの失敗を説明するモデルにとって明らかな弱点です。しかし、AI が同じことを試み続ける「ドゥーム ループ」も同様です。
架空の自動販売機を稼働させることが、主要な新しい AI モデルの発表に使用される主要なベンチマークであるという事実は、私たちがどこにいるかを示しています。これは悪いテストではありませんが(本当に非常に興味深いものです)、何を測定するかは明確ではなく、タスクの多様性も必要です。
30.53K