Thông báo: Nếu bạn có nhiều macbook hỗ trợ RDMA, bạn có thể kết hợp chúng lại với nhau bằng @exolabs và chạy các mô hình 30B+ với tốc độ 70 tok/s qua thunderbolt5. Tính song song tensor trên phần cứng tiêu dùng đã được giải quyết. Bạn đang thuê GPU tệ hơn cả chiếc laptop trên ghế sofa của bạn. 2X M4 Max (64GB mỗi cái) chạy mlx-community/Qwen3-30B-A3B-4bit @ 70 TPS