Получил непрерывную пакетную обработку с SSM в mlx-lm. Вот четыре агента OpenCode, одновременно запускающих Nvidia's Nemotron Nano на 64 ГБ M4 Max. Это хорошая модель для небольших машин, так как она использует MoE + гибридное внимание (маленький кэш).