Ho fatto funzionare il batching continuo con SSM in mlx-lm. Ecco quattro agenti OpenCode che eseguono simultaneamente il Nemotron Nano di Nvidia su 64GB M4 Max. Questo è un bel modello per macchine più piccole poiché è MoE + attenzione ibrida (cache piccola).