Eu consegui! Funciona! Usando GLM-4.7-4bit com mlx_lm.server e opencode para corrigir código real localmente! 🔥 Aqui, um único M3 Ultra 512GB, fase nex step será 2 usando Tensor Parallelism e depois aplico as mesmas mudanças no exo. O preenchimento é lento em uma única máquina, mas a geração é boa.