Tôi đã làm được! Nó hoạt động! Sử dụng GLM-4.7-4bit với mlx_lm.server và opencode để sửa mã thực tế tại chỗ! 🔥 Ở đây là M3 Ultra 512GB đơn, bước tiếp theo sẽ là 2 sử dụng Tensor Parallelism và sau đó áp dụng những thay đổi tương tự cho exo. Prefill thì chậm trên một máy đơn, nhưng việc tạo ra thì tốt.