mlx-lmでSSMと連続バッチで動作させました。 こちらは、64GB M4 Max上でNvidiaのNemotron Nanoを同時に動かしている4つのOpenCodeエージェントです。 これはMoE + ハイブリッド attention(小さなキャッシュ)なので、小型マシンに向いています。