Consegui fazer o batching contínuo funcionar com SSMs no mlx-lm. Aqui estão quatro agentes OpenCode a correr simultaneamente o Nemotron Nano da Nvidia em 64GB M4 Max. Este é um bom modelo para máquinas menores, uma vez que é MoE + atenção híbrida (cache pequeno).