Ik heb het gedaan! Het werkt! Gebruik GLM-4.7-4bit met mlx_lm.server en opencodes om echte code lokaal te repareren! 🔥 Hier enkele M3 Ultra 512GB, de volgende fase zal 2 zijn met Tensor Parallelism en dan dezelfde wijzigingen toepassen op exo. Prefill is traag op een enkele machine, maar de generatie is goed.