Jag klarade det! Det fungerar! Att använda GLM-4.7-4bit med mlx_lm.server och opencode för att fixa riktig kod lokalt! 🔥 Här är en enkel M3 Ultra 512GB, den senaste stegfasen är 2 med Tensor Parallelism och sedan appliceras samma ändringar på exo. Prefill är långsamt på en enda maskin, men genereringen är bra.