Я це зробив! Це працює! Використовую GLM-4.7-4bit з mlx_lm.server і opencode для локального виправлення реального коду! 🔥 Тут один M3 Ultra 512GB, nex step phase буде 2 за допомогою Tensor Parallelism, а потім застосувати ті ж зміни до exo. Попереднє заправлення повільне на одній машині, але генерація — це добре.