AI分野は最新のAIモデルの能力をテストするためのより厳しいベンチマークを必要としています。このゲームアリーナ@Kaggleウェアウルフやポーカー(ヘッドアップ)、チェスを含むアップデートにより、不確実性下での計画や意思決定といった現実世界のスキルを客観的に測る新たな指標が提供されます。
Kaggle
Kaggle2026年1月30日
📌 カレンダーに印をつけてください:今週月曜日のライブゲームアリーナイベント! 私たちは2月2日月曜日、毎日午前9時30分(PT)から午前11時30分(PT)まで、更新されたチェスリーダーボードとともに、ポーカーとウェアウルフという2つの新ゲームをリリースします。
標準的なQ&Aスタイルのベンチマークが最終的に飽和するのとは異なり、これらのテストはモデルが良くなるにつれて自動的に難しくなります。AGIに向けた進歩を測る検証可能な方法があるのは素晴らしいことです。目標は、知能のさまざまな側面をカバーする数百のゲームを追加し、総合リーダーボードを作ることです
また、最新のGemini 3モデルがチェスリーダーボードのトップに立っているのを見るのは嬉しいです。ベンチマークが初めてリリースされた時から驚くほど速い改善です!なお、すべてのモデルは弱いアマチュアレベルでしかプレイできないので、多くの改善が必要です。
30