Gemini 3 Flashは現在、PinchBenchでOpenClawで最も高い成功率を示しており、95.1%です。 PinchBenchは、OpenClawを使ったモデルの実際の性能を評価するオープンベンチマークです。これは、個別の能力テストではなく、実践的な使用に焦点を当てています。 作業内容には、コード作成、ファイル管理、スケジューリング、調査が含まれます。 PinchBenchは以下のようなものを扱っています: - 工具の使用。モデルは適切なツールを適切なパラメータで呼び出せるのでしょうか? - 多段階推論。複雑な作業を完了するために連鎖反応ができるのでしょうか? - 現実世界の混沌。曖昧な指示や不完全な情報に対応できますか? - 実践的な成果。実際にファイルを作成し、メールを送ったのか、会議のスケジュールを決めたのか? 以下に完全なリーダーボードがあります。 1/2