在mlx-lm中成功实现了连续批处理。 这里有四个OpenCode代理同时在64GB M4 Max上运行Nvidia的Nemotron Nano。 这是一个适合小型机器的不错模型,因为它是MoE + 混合注意力(小缓存)。