¡Lo hice! ¡Funciona! Usando GLM-4.7-4bit con mlx_lm.server y opencode para arreglar el código real localmente! 🔥 Aquí un M3 Ultra de 512GB, el siguiente paso será 2 usando Paralelismo Tensorial y luego aplicar los mismos cambios a exo. El prellenado es lento en una sola máquina, pero la generación es buena.