Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Amélioration significative ! Qwen3-Max version officielle vs version Preview testée !
Cela fait maintenant 3 mois depuis la sortie de la version Qwen3-Max-ThinkingPreview, la version officielle est enfin arrivée ! Quelle est l'ampleur de cette amélioration ? Voici directement les résultats des tests !
Test de capacité de programmation : test d'explosion en chaîne de pétards avec une amélioration épique, la version Preview précédente ne pouvait pas du tout enchaîner, maintenant elle peut non seulement enchaîner, mais l'effet est également assez bon ; test de la pâte à modeler éléphant avec une amélioration évidente dans la modélisation du flacon conique, il y a même une animation de descente de liquide, mais l'animation des particules a encore quelques problèmes ; le mouvement de la montre tourbillon est passé de l'incapacité à la modélisation réussie ; la détection d'élasticité des particules et de collision pour le test du verre Python a été corrigée.
Cette fois, un test esthétique a été ajouté : en décrivant avec des mots, il a réussi à reproduire des œuvres d'art moderne p5.js, le résultat est correct, mais la capacité de compréhension spatiale reste un frein, la ligne horizontale de la petite fenêtre est décalée.
Test de capacité d'Agent : performance excellente dans un contexte de 60K, estimée à pouvoir atteindre un niveau SOTA de 500 points, mais au-delà de 60K, les performances chutent brusquement, avec des problèmes de boucle de tâches ou d'oubli d'outils.
La capacité de rappel est proche de 70 %, mais un phénomène étrange est apparu : plus le contexte est court, moins le rappel est bon, il n'est pas encore clair quel est le problème, je l'ai déjà signalé aux responsables.
Résumé : La version officielle montre une amélioration visible par rapport à la version Preview, avec des progrès en programmation et en esthétique, mais la compréhension spatiale, la capacité d'Agent et le rappel dans de longs contextes nécessitent encore des ajustements. De plus, le test effectué est la version thinking normale, et le mode TTS avec un score très élevé n'est pas encore en ligne ! Hâte de voir ça !
#Qwen3Max #Qwen3MaxThinking #KCORES大模型竞技场 #AI编程 #大模型测评 #阿里千问
Meilleurs
Classement
Favoris
