DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Deze grafiek is al verouderd en niemand praat erover. De ranglijst toont "Anthropic Opus 4.5" op 76,1%. Opus 4.6 werd gelanceerd op 5 februari, één dag nadat Perplexity deze resultaten publiceerde. De eigen release-opmerkingen van Anthropic zeggen dat Opus 4.6 "zowel BrowseComp als DeepSearchQA verbetert." Bij BrowseComp was die verbetering 16 procentpunten (67,8% naar 84,0%). We hebben het DeepSearchQA-nummer nog niet, maar als de sprong zelfs maar de helft van die grootte is, zou Opus 4.6 op zichzelf boven Perplexity's 79,5% zitten. Hier wordt het interessant. Perplexity's Advanced Deep Research voert elke query uit op Opus 4.5. Dat is bevestigd in hun eigen aankondiging. Opus 4.6 is al beschikbaar op Perplexity's API voor Comet, maar Deep Research is nog niet overgestapt. Dus het "state-of-the-art" resultaat dat Kobeissi breaking news noemt, is gemeten tegen een model dat 24 uur later werd vervangen. De framing van "Perplexity verslaat Anthropic" verbergt ook het feit dat Perplexity's engine IS Anthropic. Elke Advanced Deep Research-query draait Opus 4.5 via Perplexity's agentische zoekharnas. Anthropic is de basis. Perplexity is de steiger. De kloof van 3,4 punten tussen hen (79,5% vs 76,1%) is de waarde van Perplexity's retrieval-pijplijn bovenop Anthropic's redenering. Drie dingen staan op het punt te gebeuren. Anthropic dient Opus 4.6 in bij de ranglijst. Perplexity upgrade Deep Research van 4.5 naar 4.6. En deze hele grafiek wordt binnen enkele weken herschikt. Een momentopname van een benchmarkrace halverwege delen en het "breaking" noemen, is hoe je 186K weergaven en nul inzicht krijgt.

Boven

Positie

Favorieten