Veel mensen zijn in de war door de recente terugkeer van Minimax naar volledige aandacht - vooral omdat het de eerste grootschalige verschuiving naar hybride lineaire aandacht was - en door Kimi's latere adoptie van hybride lineaire varianten (samen met eerdere pogingen van Qwen3-Next, of Qwen3.5). Ik waardeer eigenlijk de openheid van Minimax hier: ze gaven de uitdagingen en spijt van hybride lineaire of sliding-window aandacht bij multi-hop redeneertaken toe, wat niet veel laboratoria hardop zouden zeggen. Dat gezegd hebbende, de "spijt" is misschien niet zo erg als het klinkt. Minimax gebruikte een zeer eenvoudige lineaire aandacht variant (grotendeels vanwege onvoldoende evaluatie op dat moment), dus de prestatiekloof was waarschijnlijk overdreven. De voortdurende pretrainingstrategie (d.w.z. overschakelen van globale aandacht naar hybride sliding-window aandacht) leek ook vrij suboptimaal. En voor zover ik weet, kan hybride lineaire aandacht nog steeds zeer sterk presteren op bijna alle benchmarks, behalve multi-hop redeneren. Als de prestatieafname bij multi-hop redeneren klein genoeg kan worden gehouden om te ruilen voor betere inferentie-efficiëntie en data-efficiëntie, heeft hybride lineaire aandacht nog veel ruimte om te groeien. Betere lineaire-complexiteitslagen zijn nog steeds het verkennen waard, vooral met de verbeterende infrastructuur van frameworks zoals vLLM en SGLang. Tenslotte willen we niet dat onze agentische modellen voor altijd gebonden zijn aan de contextlengte - dat is een beperking die we vroeg of laat moeten overwinnen.