熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
在 M3 Ultra 上使用 GLM 4.7 檢查 mlx-lm 的批次生成。
6 位元模型以幾乎是單次生成的兩倍吞吐量(約 30 tok/秒)運行 4 的批次。
您還可以使用 MLX 的 JACCL 後端進行張量並行生成,以便利用多台機器獲得加速。
這是 GLM 4.7 在 6 位元下在四台機器上運行單個範例的速度約為 25 tok/s:
310
熱門
排行
收藏
