Grok 4.20ベータ版は、Grok 4に比べて3つの大きな改善点を示しています。 † AA全知評価でこれまでで最も低い幻覚率です。Grokが答えを知らないと、誤答を22%の確率で幻覚に見ました。これは私たちがテストしたどのモデルよりも低い幻覚率で、Claude Haikuの4.5(25%)を上回ります 指導の遵守率と迅速な遵守率で最高得点。IFBenchでは、Grok 4.20が82.9%で#1位を獲得し、Grok 4より+29.2ポイント上昇しています † その知性によるリードスピード。xAIのAPI上で265トークン/秒の出力速度を持つGrok 4.20は、同等のものよりも大幅に高速であり、Grok 4.1 Fastの2倍以上の出力速度を実現しています @xaiと@elonmuskの4.20ベータ0309ローンチ、おめでとうございます!
人工分析に関するさらなる分析:
31.94K