DApp Store | Web3 Hub for hendelser og spill

Populære emner

Dette diagrammet er allerede utdatert, og ingen snakker om det. Topplisten viser "Anthropic Opus 4.5" på 76,1 %. Opus 4.6 ble lansert 5. februar, én dag etter at Perplexity publiserte disse resultatene. Anthropics egne utgivelsesnotater sier at Opus 4.6 «forbedrer både BrowseComp og DeepSearchQA.» På BrowseComp var denne forbedringen 16 prosentpoeng (67,8 % til 84,0 %). Vi har ikke DeepSearchQA-tallet ennå, men hvis økningen er bare halvparten så stor, vil Opus 4.6 alene ligge over Perplexitys 79,5 %. Her blir det interessant. Perplexitys Advanced Deep Research kjører alle søk på Opus 4.5. Det bekreftes i deres egen kunngjøring. Opus 4.6 er allerede tilgjengelig på Perplexitys API for Comet, men Deep Research har ennå ikke byttet over. Så det «state-of-the-art»-resultatet som Kobeissi kaller breaking news, ble sammenlignet med en modell som ble erstattet 24 timer senere. Innrammingen av «Perplexity slår Anthropic» begraver også det faktum at Perplexitys motor ER Anthropic. Hver Advanced Deep Research-spørring kjører Opus 4.5 gjennom Perplexitys agentiske søkeverktøy. Antropisk er grunnlaget. Forvirring er stillaset. Gapet på 3,4 poeng mellom dem (79,5 % mot 76,1 %) er verdien av Perplexitys hentepipeline i tillegg til Anthropics resonnement. Tre ting er i ferd med å skje. Anthropic sender Opus 4.6 til topplisten. Perplexity oppgraderer Deep Research fra 4,5 til 4,6. Og hele denne tabellen blir stokket om i løpet av noen uker. Å dele et øyeblikksbilde av et benchmark-løp midt i steget og kalle det «breaking» er hvordan du får 186 000 visninger uten noen innsikt.

Topp

Rangering

Favoritter