分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

AI分野は最新のAIモデルの能力をテストするためのより厳しいベンチマークを必要としています。このゲームアリーナ@Kaggleウェアウルフやポーカー(ヘッドアップ)、チェスを含むアップデートにより、不確実性下での計画や意思決定といった現実世界のスキルを客観的に測る新たな指標が提供されます。

標準的なQ&Aスタイルのベンチマークが最終的に飽和するのとは異なり、これらのテストはモデルが良くなるにつれて自動的に難しくなります。AGIに向けた進歩を測る検証可能な方法があるのは素晴らしいことです。目標は、知能のさまざまな側面をカバーする数百のゲームを追加し、総合リーダーボードを作ることです

また、最新のGemini 3モデルがチェスリーダーボードのトップに立っているのを見るのは嬉しいです。ベンチマークが初めてリリースされた時から驚くほど速い改善です!なお、すべてのモデルは弱いアマチュアレベルでしかプレイできないので、多くの改善が必要です。

30

トップ

ランキング

お気に入り