Saya berhasil! Itu berhasil! Menggunakan GLM-4.7-4bit dengan mlx_lm.server dan opencode untuk memperbaiki kode nyata secara lokal! 🔥 Di sini M3 Ultra 512GB tunggal, fase langkah nex akan menjadi 2 menggunakan Tensor Parallelism dan kemudian menerapkan perubahan yang sama ke exo. Prefill lambat pada satu mesin, tetapi generasi bagus.