Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A melhora é óbvia! Qwen3-Max Versão Oficial vs Teste de Versão Prévia!
Já se passaram 3 meses desde o lançamento do Qwen3-Max-ThinkingPreview, e a versão oficial finalmente chegou! Qual é o tamanho desse aumento? Vou te dar os resultados do teste diretamente!
Teste de habilidade de programação: Firecracker chain explosion test de melhora épica, a versão anterior de prévia não podia ser encadeada, agora não só pode ser encadeada, como o efeito é muito bom; A modelagem do teste do frasco cônico da pasta de dente de elefante melhorou significativamente, e há até uma animação de descida líquida, mas ainda há alguns problemas com a animação de partículas. O movimento do tourbillon passou de inacabado a modelado de forma suave; A elasticidade das partículas e a detecção de colisão do copo Python despejando água foram corrigidas.
Desta vez, foi adicionado um teste estético: o uso de descrições em texto para restaurar p5.js obras de arte modernas, o efeito é aceitável, mas a capacidade de compreensão espacial ainda está atrasada, e as linhas horizontais da pequena janela estão desalinhadas.
Teste de habilidade do agente: Excelente desempenho dentro de 60K, estimado em 500 pontos no nível SOTA, mas após 60K, o desempenho cai drasticamente e haverá problemas com looping de tarefas ou esquecimento de ferramentas.
A capacidade de recall é próxima de 70%, mas há um fenômeno estranho – quanto mais curto o contexto, pior o recall, não está claro qual é o problema, já relatei isso aos oficiais.
Resumo: A versão oficial é visível a olho nu em comparação com a versão de prévia, e a programação e a estética melhoraram, mas a compreensão espacial, a capacidade do agente e a longa memória do contexto ainda precisam ser aprimoradas. Além disso, esse teste é uma versão de pensamento normal, e o modo TTS com pontuação super alta ainda não está online! Estou ansioso por uma onda!
#Qwen3Max #Qwen3MaxThinking #KCORES大模型竞技场 #AI编程 #大模型测评 #阿里千问
Melhores
Classificação
Favoritos
