PSA: Wenn Sie mehrere MacBooks haben, die RDMA unterstützen, können Sie sie mit @exolabs clustern und 30B+ Modelle mit 70 tok/s über Thunderbolt 5 ausführen. Tensorparallelismus auf Verbrauchshardware ist ein gelöstes Problem. Sie mieten GPUs, die schlechter sind als das Laptop auf Ihrer Couch. 2X M4 Max (jeweils 64 GB) laufen mlx-community/Qwen3-30B-A3B-4bit @ 70 TPS