Dokázal jsem to! Funguje to! Používám GLM-4.7-4bit s mlx_lm.server a opencode pro lokální opravu skutečného kódu! 🔥 Zde bude jedna M3 Ultra 512GB, fáze nex kroku 2 pomocí Tensor Parallelism a pak stejné změny aplikujete na exo. Předplnění je na jednom stroji pomalé, ale generování je dobré.