Zrobiłem to! Działa! Używając GLM-4.7-4bit z mlx_lm.server i opencode, aby naprawić prawdziwy kod lokalnie! 🔥 Tutaj pojedynczy M3 Ultra 512GB, następny krok fazy to 2, używając Tensor Parallelism, a następnie zastosować te same zmiany do exo. Prefill jest wolny na pojedynczej maszynie, ale generacja jest dobra.