Je l'ai fait ! Ça fonctionne ! Utilisation de GLM-4.7-4bit avec mlx_lm.server et opencode pour corriger le code réel localement ! 🔥 Ici un M3 Ultra 512 Go, la prochaine étape sera la phase 2 en utilisant le parallélisme tensoriel et ensuite appliquer les mêmes changements à exo. Le pré-remplissage est lent sur une seule machine, mais la génération est bonne.