Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Mejoras notables! ¡Pruebas del Qwen3-Max versión oficial vs versión Preview!
Han pasado 3 meses desde el lanzamiento de la versión Qwen3-Max-ThinkingPreview, ¡y la versión oficial finalmente ha llegado! ¿Cuánto ha mejorado esta vez? ¡Aquí están los resultados de las pruebas!
Prueba de capacidad de programación: mejora épica en la prueba de explosión en cadena de petardos, la versión Preview anterior no podía encadenar en absoluto, ¡ahora no solo puede encadenar, sino que el efecto es bastante bueno! La prueba de modelado de frascos cónicos con pasta de dientes ha mejorado notablemente, incluso hay una animación de descenso de líquido, aunque la animación de partículas todavía tiene algunos problemas; el mecanismo de tourbillon ha pasado de no poder completarse a modelarse con éxito; la elasticidad de las partículas y la detección de colisiones en la prueba de vertido de agua con una taza de Python se han solucionado.
Esta vez se añadió una prueba estética: describiéndolo con palabras, se le pidió que recreara una obra de arte moderno en p5.js, el resultado es aceptable, pero la capacidad de comprensión espacial sigue siendo un obstáculo, la línea horizontal en la pequeña ventana está desalineada.
Prueba de capacidad del agente: excelente rendimiento dentro de 60K de contexto, se estima que puede alcanzar un puntaje de 500 en el nivel SOTA, pero más allá de 60K, el rendimiento disminuye drásticamente, apareciendo problemas de bucle de tareas o olvido de herramientas.
La capacidad de recuperación está cerca del 70%, pero ha surgido un fenómeno extraño: cuanto más corto es el contexto, peor es la recuperación, actualmente no está claro cuál es el problema, ya lo he informado a la oficial.
Resumen: La versión oficial muestra mejoras visibles en comparación con la versión Preview, hay avances en programación y estética, pero la comprensión espacial, la capacidad del agente y la recuperación de contextos largos aún necesitan refinamiento. Además, esta prueba es de la versión normal de thinking, ¡y ese modo TTS con puntajes altísimos aún no se ha lanzado! ¡Esperando una ola!
Parte superior
Clasificación
Favoritos
