Viele Menschen sind verwirrt über die jüngste Rückkehr von Minimax in den Fokus - insbesondere da es sich um die erste großangelegte Abkehr hin zu hybrider linearer Aufmerksamkeit handelt - und über Kimi's spätere Annahme hybrider linearer Varianten (sowie frühere Versuche von Qwen3-Next oder Qwen3.5). Ich schätze tatsächlich die Offenheit von Minimax hier: Sie haben die Herausforderungen und Bedauern bezüglich hybrider linearer oder gleitender Fensteraufmerksamkeit bei Multi-Hop-Reasoning-Aufgaben zugegeben, was nicht viele Labore laut aussprechen würden. Das gesagt, könnten die "Bedauern" nicht so schlimm sein, wie sie klingen. Minimax verwendete eine sehr einfache Variante der linearen Aufmerksamkeit (hauptsächlich aufgrund unzureichender Evaluierung zu diesem Zeitpunkt), sodass die Leistungsdifferenz wahrscheinlich übertrieben war. Die kontinuierliche Vortraining-Strategie (d.h. der Wechsel von globaler Aufmerksamkeit zu hybrider gleitender Fensteraufmerksamkeit) schien ebenfalls ziemlich suboptimal. Und soweit ich weiß, kann hybride lineare Aufmerksamkeit immer noch sehr stark bei fast allen Benchmarks abschneiden, außer beim Multi-Hop-Reasoning. Wenn der Leistungsabfall beim Multi-Hop-Reasoning klein genug gehalten werden kann, um für bessere Inferenz- und Dateneffizienz zu handeln, hat die hybride lineare Aufmerksamkeit immer noch viel Raum zur Weiterentwicklung. Bessere linear-komplexe Schichten sind weiterhin wert, erkundet zu werden, insbesondere mit der Verbesserung der Infrastruktur durch Frameworks wie vLLM und SGLang. Schließlich wollen wir nicht, dass unsere agentischen Modelle für immer durch die Kontextlänge begrenzt sind - das ist eine Einschränkung, die wir früher oder später überwinden müssen.