Rodando Minimax M2.1 (@MiniMax__AI) com OpenCode (@opencode) e mlx_lm.server. Funciona muito bem em um M3 Ultra. Depois que o cache KV está quente, o processamento dos prompts é bem rápido. E a geração de tokens é muito rápida.