在2台512GB M3 Ultra Mac Studios上运行完整的GLM 4.7(8位) 在@exolabs的MLX RDMA后端下以19.8 tok/sec的速度运行(感谢@awnihannun)和张量并行