Am obținut batching continuu care funcționează cu SSM-uri în mlx-lm. Iată patru agenți OpenCode care rulează simultan Nemotron Nano de la Nvidia pe 64GB M4 Max. Acesta este un model bun pentru mașini mai mici, deoarece este MoE + atenție hibridă (cache mic).