Am reușit! Funcționează! Folosind GLM-4.7-4bit cu mlx_lm.server și opencode pentru a corecta codul real local! 🔥 Aici un singur M3 Ultra 512GB, faza nex step va fi 2 folosind Tensor Parallelism și apoi aplic aceleași modificări la exo. Preumplutura este lentă pe o singură mașină, dar generarea este bună.