在 M2.1 版本的 Minimax (@MiniMax__AI) 上运行 OpenCode (@opencode) 和 mlx_lm.server。 在 M3 Ultra 上运行得相当不错。一旦 KV 缓存变热,提示处理速度非常快。而令牌生成也非常迅速。