Käytän Minimax M2.1:tä (@MiniMax__AI) OpenCode (@opencode) ja mlx_lm.server. Toimii varsin hyvin M3 Ultrassa. Kun KV-välimuisti on lämmin, kehotteiden käsittely on melko nopeaa. Ja tokenien generointi on todella nopeaa.