¡La mejora es evidente! ¡Versión oficial Qwen3-Max vs prueba de versión preliminar! Han pasado 3 meses desde el lanzamiento de Qwen3-Max-ThinkingPreview, ¡y por fin ha llegado la versión oficial! ¿Qué tamaño tiene este impulso? ¡Te doy los resultados directamente de las pruebas! Prueba de habilidad de programación: Firecracker chain explosion test épico mejora, la versión previa anterior no podía encadenarse en absoluto, ahora no solo se puede encadenar, el efecto es bastante bueno; El modelado de la prueba de matraz cónico de pasta de dientes de elefante ha mejorado significativamente, e incluso hay una animación de descenso líquido, pero aún existen algunos problemas con la animación de partículas. El movimiento del tourbillon pasó de estar inacabado a modelarse de forma fluida; La elasticidad de partículas y la detección de colisiones de la copa Python al verter agua han sido corregidas. Esta vez se ha añadido una prueba estética: el uso de descripciones en texto para restaurar p5.js obras de arte modernas, el efecto está bien, pero la capacidad de comprensión espacial sigue estando retrasada y las líneas horizontales de la pequeña ventana están desalineadas. Prueba de habilidad del agente: Excelente rendimiento dentro de un contexto de 60K, estimado en 500 puntos en nivel SOTA, pero tras 60K, el rendimiento cae bruscamente y habrá problemas con bucles de tareas o olvido de herramientas. La capacidad de retirada es cercana al 70%, pero hay un fenómeno extraño: cuanto más corto es el contexto, peor es la retirada; no está claro cuál es el problema, lo he comunicado a los funcionarios. Resumen: La versión oficial es visible a simple vista en comparación con la versión de previsualización, y la programación y la estética han mejorado, pero la comprensión espacial, la capacidad del agente y la memoria larga del contexto aún necesitan ser pulidas. Además, esta prueba es una versión de pensamiento normal, ¡y el modo TTS con una puntuación súper alta aún no está disponible! ¡Tengo ganas de saludar! #Qwen3Max #Qwen3MaxThinking #KCORES大模型竞技场 #AI编程 #大模型测评 #阿里千问