🔥 Esto cambia todo sobre la IA de contexto largo. Un nuevo artículo "Every Attention Matters" acaba de reconfigurar silenciosamente cómo los transformadores manejan 128K + tokens. El equipo de Ling construyó una atención híbrida "Ring-linear" que fusiona Softmax con Linear Attention. ¿Resultado? Inferencia 10 veces más barata con cero compensaciones de precisión. Pero esto es lo que me dejó boquiabierto: +50% de eficiencia en la formación +90% de velocidad de inferencia Optimización estable de RL en secuencias ultralargas Sin tonterías de un billón de parámetros. Sin hardware exótico. Solo una arquitectura más inteligente. El futuro de la IA no es una mayor atención. Es una atención más inteligente.