GLM-4.7-8bit(350GB)は、EXO - MLXでテンソル並列処理を用いる2台のM3 Ultra 512GBで19 toks/sで動作します。一方、シングルノードでは14 toks/sです。🚀 次にコンテキストベンチマーキングとOpenCodeテスト🔥を行います 注:これは情報源からの情報で、実行するために設定を変更しなければなりませんでした。