Ce l'ho fatta! Funziona! Utilizzando GLM-4.7-4bit con mlx_lm.server e opencode per correggere il codice reale localmente! 🔥 Qui un singolo M3 Ultra 512GB, il prossimo passo sarà 2 utilizzando il Tensor Parallelism e poi applicare le stesse modifiche a exo. Il prefill è lento su una singola macchina, ma la generazione è buona.