Používám Minimax M2.1 (@MiniMax__AI) s OpenCode (@opencode) a mlx_lm.server. Na M3 Ultra to funguje docela dobře. Jakmile je KV cache zahřátá, zpracování promptů je poměrně rychlé. A generování tokenů je velmi rychlé.