Dieses Diagramm ist bereits veraltet und niemand spricht darüber. Die Rangliste zeigt „Anthropic Opus 4.5“ mit 76,1 %. Opus 4.6 wurde am 5. Februar veröffentlicht, einen Tag nachdem Perplexity diese Ergebnisse veröffentlicht hat. Die eigenen Veröffentlichungsnotizen von Anthropic besagen, dass Opus 4.6 „sowohl BrowseComp als auch DeepSearchQA verbessert“. Bei BrowseComp betrug diese Verbesserung 16 Prozentpunkte (67,8 % auf 84,0 %). Wir haben die Zahl für DeepSearchQA noch nicht, aber wenn der Sprung auch nur halb so groß ist, würde Opus 4.6 allein über den 79,5 % von Perplexity liegen. Hier wird es interessant. Perplexity’s Advanced Deep Research führt jede Abfrage auf Opus 4.5 aus. Das ist in ihrer eigenen Ankündigung bestätigt. Opus 4.6 ist bereits über die API von Perplexity für Comet verfügbar, aber Deep Research hat noch nicht umgeschaltet. Das „State-of-the-Art“-Ergebnis, das Kobeissi als Breaking News bezeichnet, wurde gegen ein Modell benchmarked, das 24 Stunden später überholt wurde. Die Formulierung „Perplexity schlägt Anthropic“ verschleiert auch die Tatsache, dass die Engine von Perplexity ANTHROPIC ist. Jede Advanced Deep Research-Abfrage läuft über Opus 4.5 durch Perplexity’s agentische Suchmaschine. Anthropic ist das Fundament. Perplexity ist das Gerüst. Die 3,4 Punkte Differenz zwischen ihnen (79,5 % vs. 76,1 %) ist der Wert von Perplexity’s Abrufpipeline auf der Grundlage von Anthropic’s Argumentation. Drei Dinge werden gleich passieren. Anthropic reicht Opus 4.6 bei der Rangliste ein. Perplexity aktualisiert Deep Research von 4.5 auf 4.6. Und dieses gesamte Diagramm wird innerhalb von Wochen neu angeordnet. Ein Schnappschuss eines Benchmark-Rennens mitten im Lauf zu teilen und es „breaking“ zu nennen, ist, wie man 186K Aufrufe und null Einsicht erhält.