Ich habe kontinuierliches Batching mit SSMs in mlx-lm zum Laufen gebracht. Hier sind vier OpenCode-Agenten, die gleichzeitig Nvidias Nemotron Nano auf 64GB M4 Max ausführen. Dies ist ein schönes Modell für kleinere Maschinen, da es MoE + hybride Aufmerksamkeit (kleiner Cache) bietet.