このチャートはすでに時代遅れで、誰も話題にしていません。 リーダーボードには「Anthropic Opus 4.5」が76.1%で表示されています。Opus 4.6は2月5日にリリースされました。これはPerplexityがこれらの結果を発表した翌日です。Anthropic自身のリリースノートには、Opus 4.6が「BrowseCompとDeepSearchQAの両方を改良している」と記されています。BrowseCompでは、その改善は16ポイント(67.8%対84.0%)でした。DeepSearchQAの数値はまだ分かっていませんが、もしその半分でも伸びれば、Opus 4.6単体版はPerplexityの79.5%を上回ることになります。 ここからが面白いところです。PerplexityのAdvanced Deep ResearchはOpus 4.5のすべてのクエリを解析しています。それは彼ら自身の発表で確認されています。Opus 4.6はすでにPerplexityのComet向けAPIで利用可能ですが、Deep Researchはまだ切り替えていません。したがって、コベイッシ氏が「最新鋭」と呼ぶ「最新鋭」の結果は、24時間後に置き換えられたモデルと比較されたのです。 「Perplexity beats Anthropic」という文脈は、PerplexityのエンジンがAnthropicであるという事実も隠しています。すべてのAdvanced Deep Researchクエリは、Perplexityのエージェント検索ハーネスを通じてOpus 4.5を実行します。人形が基盤です。困惑は足場です。彼らの間の3.4ポイントの差(79.5%対76.1%)は、Perplexityのリトリーブパイプラインの価値とAnthropicの論理を重ねたものです。 これから三つのことが起ころうとしている。AnthropicはOpus 4.6をリーダーボードに提出しました。パープレクシティはディープリサーチを4.5から4.6にアップグレードします。そしてこのチャート全体が数週間以内に入れ替えられます。ベンチマークレースのスナップショットをストライド中に共有して「ブレイキング」と呼ぶのは、18万6千回の視聴数を得てインサイトがゼロになる方法です。