Ich habe es geschafft! Es funktioniert! Ich benutze GLM-4.7-4bit mit mlx_lm.server und opencode, um echten Code lokal zu reparieren! 🔥 Hier ein einzelner M3 Ultra 512GB, der nächste Schritt wird Phase 2 sein, wobei Tensor Parallelismus verwendet wird, und dann dieselben Änderungen auf exo angewendet werden. Das Vorabfüllen ist langsam auf einer einzelnen Maschine, aber die Generierung ist gut.