Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mucha gente está confundida por el reciente regreso de Minimax a la atención completa, especialmente porque fue el primer pivote a gran escala hacia la atención lineal híbrida, y por la posterior adopción de variantes lineales híbridas por parte de Kimi (así como los intentos anteriores de Qwen3-Next o Qwen3.5). De hecho, aprecio la apertura de Minimax aquí: admitieron los desafíos y arrepentimientos de la atención híbrida lineal o de ventana deslizante en tareas de razonamiento de múltiples saltos, que no muchos laboratorios dirían en voz alta.
Dicho esto, los "arrepentimientos" pueden no ser tan malos como parecen. Minimax utilizó una variante de atención lineal muy simple (en gran parte debido a una evaluación insuficiente en ese momento), por lo que la brecha de rendimiento probablemente fue exagerada. La estrategia de preentrenamiento continuo (es decir, cambiar de la atención global a la atención híbrida de ventana deslizante) también parecía bastante subóptima. Y afaik, la atención lineal híbrida aún puede funcionar muy bien en casi todos los puntos de referencia, excepto en el razonamiento de múltiples saltos. Si la caída del rendimiento en el razonamiento de múltiples saltos se puede mantener lo suficientemente pequeña como para cambiarla por una mejor eficiencia de inferencia y eficiencia de datos, la atención lineal híbrida todavía tiene mucho espacio para crecer.
Todavía vale la pena explorar mejores capas de complejidad lineal, especialmente con la mejora de la infraestructura de marcos como vLLM y SGLang. Después de todo, no queremos que nuestros modelos agénticos estén limitados para siempre por la longitud del contexto, esa es una limitación que tendremos que superar tarde o temprano
Populares
Ranking
Favoritas

