Rulând Minimax M2.1 (@MiniMax__AI) cu OpenCode (@opencode) și mlx_lm.server. Funcționează destul de bine pe un M3 Ultra. Odată ce cache-ul KV se încălzește, procesarea prompturilor este destul de rapidă. Iar generarea de token-uri este foarte rapidă.