DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Questo grafico è già obsoleto e nessuno ne sta parlando. La classifica mostra “Anthropic Opus 4.5” al 76,1%. Opus 4.6 è stato lanciato il 5 febbraio, un giorno dopo che Perplexity ha pubblicato questi risultati. Le note di rilascio di Anthropic affermano che Opus 4.6 “migliora sia BrowseComp che DeepSearchQA.” Su BrowseComp, quel miglioramento è stato di 16 punti percentuali (67,8% a 84,0%). Non abbiamo ancora il numero di DeepSearchQA, ma se il salto è anche solo la metà di quella dimensione, Opus 4.6 da solo sarebbe sopra il 79,5% di Perplexity. Ecco dove diventa interessante. La Ricerca Profonda Avanzata di Perplexity esegue ogni query su Opus 4.5. Questo è confermato nel loro stesso annuncio. Opus 4.6 è già disponibile sull'API di Perplexity per Comet, ma la Ricerca Profonda non è ancora passata. Quindi il risultato “all'avanguardia” che Kobeissi sta definendo notizia dell'ultima ora è stato confrontato con un modello che è stato superato 24 ore dopo. Il modo in cui viene inquadrato “Perplexity batte Anthropic” seppellisce anche il fatto che il motore di Perplexity È Anthropic. Ogni query di Ricerca Profonda Avanzata esegue Opus 4.5 attraverso il sistema di ricerca agentico di Perplexity. Anthropic è la base. Perplexity è il ponte. Il divario di 3,4 punti tra di loro (79,5% contro 76,1%) è il valore del pipeline di recupero di Perplexity sopra il ragionamento di Anthropic. Tre cose stanno per accadere. Anthropic invia Opus 4.6 alla classifica. Perplexity aggiorna la Ricerca Profonda da 4.5 a 4.6. E questo intero grafico verrà riorganizzato entro poche settimane. Condividere un'istantanea di una corsa di benchmark a metà corsa e definirla “breaking” è il modo per ottenere 186K visualizzazioni e zero intuizioni.

Principali

Ranking

Preferiti