Ejecutando Minimax M2.1 (@MiniMax__AI) con OpenCode (@opencode) y mlx_lm.server. Funciona bastante bien en un M3 Ultra. Una vez que la caché KV está caliente, el procesamiento de los prompts es bastante rápido. Y la generación de tokens es muy rápida.