Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Muchas personas están confundidas por el reciente regreso de Minimax a la atención total, especialmente porque fue el primer cambio a gran escala hacia la atención lineal híbrida, y por la adopción posterior de variantes lineales híbridas por parte de Kimi (así como los intentos anteriores de Qwen3-Next, o Qwen3.5). De hecho, aprecio la apertura de Minimax aquí: admitieron los desafíos y arrepentimientos de la atención lineal híbrida o de ventana deslizante en tareas de razonamiento multi-hop, lo cual no muchas laboratorios dirían en voz alta.
Dicho esto, los "arrepentimientos" podrían no ser tan malos como suenan. Minimax utilizó una variante de atención lineal muy simple (en gran parte debido a la evaluación insuficiente en ese momento), por lo que la brecha de rendimiento probablemente fue exagerada. La estrategia de preentrenamiento continuo (es decir, cambiar de atención global a atención híbrida de ventana deslizante) también parecía bastante subóptima. Y hasta donde sé, la atención lineal híbrida aún puede desempeñarse muy bien en casi todos los benchmarks, excepto en el razonamiento multi-hop. Si la caída de rendimiento en el razonamiento multi-hop se puede mantener lo suficientemente pequeña como para intercambiarla por una mejor eficiencia de inferencia y eficiencia de datos, la atención lineal híbrida aún tiene mucho espacio para crecer.
Las capas de complejidad lineal mejoradas aún valen la pena explorar, especialmente con la mejora de la infraestructura de marcos como vLLM y SGLang. Después de todo, no queremos que nuestros modelos agentes estén siempre limitados por la longitud del contexto; esa es una limitación que tendremos que superar más pronto que tarde.
Parte superior
Clasificación
Favoritos

