Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Este gráfico já está desatualizado e ninguém está a falar sobre isso. A tabela de classificação mostra "Anthropic Opus 4.5" a 76.1%. O Opus 4.6 foi lançado a 5 de fevereiro, um dia depois de a Perplexity ter publicado estes resultados. As próprias notas de lançamento da Anthropic dizem que o Opus 4.6 "melhora tanto o BrowseComp quanto o DeepSearchQA." No BrowseComp, essa melhoria foi de 16 pontos percentuais (67.8% para 84.0%). Ainda não temos o número do DeepSearchQA, mas se o salto for mesmo metade desse tamanho, o Opus 4.6 por si só estaria acima dos 79.5% da Perplexity. Aqui é onde as coisas ficam interessantes. A Pesquisa Profunda Avançada da Perplexity executa cada consulta no Opus 4.5. Isso está confirmado no seu próprio anúncio. O Opus 4.6 já está disponível na API da Perplexity para Comet, mas a Pesquisa Profunda ainda não foi atualizada. Portanto, o resultado "de ponta" que Kobeissi está chamando de notícia de última hora foi avaliado em relação a um modelo que foi superado 24 horas depois. A formulação de "Perplexity supera Anthropic" também esconde o fato de que o motor da Perplexity É a Anthropic. Cada consulta da Pesquisa Profunda Avançada executa o Opus 4.5 através do sistema de busca agentic da Perplexity. A Anthropic é a fundação. A Perplexity é a estrutura. A diferença de 3.4 pontos entre eles (79.5% vs 76.1%) é o valor do pipeline de recuperação da Perplexity em cima do raciocínio da Anthropic. Três coisas estão prestes a acontecer. A Anthropic submete o Opus 4.6 à tabela de classificação. A Perplexity atualiza a Pesquisa Profunda de 4.5 para 4.6. E todo este gráfico será reorganizado dentro de semanas. Compartilhar uma instantânea de uma corrida de benchmark em andamento e chamá-la de "notícia de última hora" é como se consegue 186K visualizações e nenhuma percepção.

Top

Classificação

Favoritos