Consegui! Funciona! Usando GLM-4.7-4bit com mlx_lm.server e opencode para corrigir o código real localmente! 🔥 Aqui um único M3 Ultra 512GB, o próximo passo será 2 usando Paralelismo Tensorial e depois aplicar as mesmas alterações ao exo. O pré-preenchimento é lento em uma única máquina, mas a geração é boa.