Beaucoup de gens sont confus par le récent retour de Minimax à l'attention totale - surtout depuis qu'il s'agissait du premier pivot à grande échelle vers l'attention linéaire hybride - et par l'adoption ultérieure par Kimi de variantes linéaires hybrides (ainsi que des tentatives antérieures de Qwen3-Next, ou Qwen3.5). J'apprécie en fait l'ouverture de Minimax ici : ils ont admis les défis et les regrets de l'attention linéaire hybride ou de l'attention par fenêtre glissante sur les tâches de raisonnement multi-hop, ce que peu de laboratoires diraient à voix haute. Cela dit, les "regrets" pourraient ne pas être aussi mauvais qu'ils en ont l'air. Minimax a utilisé une variante d'attention linéaire très simple (largement en raison d'une évaluation insuffisante à l'époque), donc l'écart de performance était probablement exagéré. La stratégie de préentraînement continu (c'est-à-dire, le passage de l'attention globale à l'attention hybride par fenêtre glissante) semblait également assez sous-optimale. Et autant que je sache, l'attention linéaire hybride peut encore performer très fortement sur presque tous les benchmarks sauf le raisonnement multi-hop. Si la baisse de performance sur le raisonnement multi-hop peut être maintenue suffisamment faible pour échanger contre une meilleure efficacité d'inférence et une efficacité des données, l'attention linéaire hybride a encore beaucoup de place pour croître. De meilleures couches à complexité linéaire valent encore la peine d'être explorées, surtout avec l'amélioration de l'infrastructure grâce à des frameworks comme vLLM et SGLang. Après tout, nous ne voulons pas que nos modèles agentiques soient à jamais limités par la longueur du contexte - c'est une limitation que nous devrons surmonter tôt ou tard.