🚨GROKはツールなしで「人類最後の試験」で26.9%のスコアを獲得 スケーリンググラフは、より多くのコンピューティング=パフォーマンスの向上というストーリーを物語っています。 Grokは、純粋な推論だけで、世界で最も難しい学術ベンチマークの4分の1以上を粉砕しました。 電卓も外部の助けもありません。 AIの頭脳が、人間の知識のあらゆる分野で2,500の質問に取り組んでいるだけです。 ほとんどの人間は、ツールを使用してもこのテストに失敗します。 Grokは目隠しをしてやっています。 ソース: @xai @elonmusk
Mario Nawfal
Mario Nawfal7月10日 12:14
🚨 「人類最後の試験」が廃止:本物のAIと偽者を区別するための2,500問 Xは、究極のアカデミックガントレットを発表しました - これは、これまでに必要とされる最終テストとなるほど包括的なベンチマークです。 数学が41%で圧倒的多数を占め、科学と人文科学がそれに続きます。 名前がすべてを物語っています:これはすべての試験を終わらせるための試験です。AIがこれを成功に導いたら、何が証明できるのでしょうか? 私たちは、機械が公式に私たちを凌駕するタイミングを決定するテストを構築しています。 ソース: @xai @elonmusk
89.59K