Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Questo grafico è già obsoleto e nessuno ne sta parlando.
La classifica mostra “Anthropic Opus 4.5” al 76,1%. Opus 4.6 è stato lanciato il 5 febbraio, un giorno dopo che Perplexity ha pubblicato questi risultati. Le note di rilascio di Anthropic affermano che Opus 4.6 “migliora sia BrowseComp che DeepSearchQA.” Su BrowseComp, quel miglioramento è stato di 16 punti percentuali (67,8% a 84,0%). Non abbiamo ancora il numero di DeepSearchQA, ma se il salto è anche solo la metà di quella dimensione, Opus 4.6 da solo sarebbe sopra il 79,5% di Perplexity.
Ecco dove diventa interessante. La Ricerca Profonda Avanzata di Perplexity esegue ogni query su Opus 4.5. Questo è confermato nel loro stesso annuncio. Opus 4.6 è già disponibile sull'API di Perplexity per Comet, ma la Ricerca Profonda non è ancora passata. Quindi il risultato “all'avanguardia” che Kobeissi sta definendo notizia dell'ultima ora è stato confrontato con un modello che è stato superato 24 ore dopo.
Il modo in cui viene inquadrato “Perplexity batte Anthropic” seppellisce anche il fatto che il motore di Perplexity È Anthropic. Ogni query di Ricerca Profonda Avanzata esegue Opus 4.5 attraverso il sistema di ricerca agentico di Perplexity. Anthropic è la base. Perplexity è il ponte. Il divario di 3,4 punti tra di loro (79,5% contro 76,1%) è il valore del pipeline di recupero di Perplexity sopra il ragionamento di Anthropic.
Tre cose stanno per accadere. Anthropic invia Opus 4.6 alla classifica. Perplexity aggiorna la Ricerca Profonda da 4.5 a 4.6. E questo intero grafico verrà riorganizzato entro poche settimane. Condividere un'istantanea di una corsa di benchmark a metà corsa e definirla “breaking” è il modo per ottenere 186K visualizzazioni e zero intuizioni.
Principali
Ranking
Preferiti
