Minimax M2.1 (@MiniMax__AI) mit OpenCode (@opencode) und mlx_lm.server läuft. Funktioniert ziemlich gut auf einem M3 Ultra. Sobald der KV-Cache warm ist, ist die Verarbeitung der Eingabeaufforderung ziemlich schnell. Und die Token-Generierung ist sehr schnell.