Udało mi się uruchomić ciągłe grupowanie z SSM w mlx-lm. Oto czterech agentów OpenCode jednocześnie uruchamiających Nvidia's Nemotron Nano na 64GB M4 Max. To dobry model dla mniejszych maszyn, ponieważ jest to MoE + hybrydowa uwaga (mała pamięć podręczna).