Exécution de Minimax M2.1 (@MiniMax__AI) avec OpenCode (@opencode) et mlx_lm.server. Fonctionne plutôt bien sur un M3 Ultra. Une fois que le cache KV est chaud, le traitement des invites est assez rapide. Et la génération de tokens est très rapide.