¡Lo hice! ¡Funciona! ¡Usando GLM-4.7-4bit con mlx_lm.server y opencode para arreglar código real localmente! 🔥 Aquí un solo M3 Ultra de 512GB, fase nex step será 2 usando Tensor Parallelism y luego aplico los mismos cambios a exo. El prellenado es lento en una sola máquina, pero la generación es buena.