Ogłoszenie: Jeśli masz wiele macbooków, które obsługują RDMA, możesz je zgrupować za pomocą @exolabs i uruchomić modele 30B+ z prędkością 70 tok/s przez thunderbolt5. Równoległość tensorowa na sprzęcie konsumenckim to rozwiązany problem. Wynajmujesz GPU, które są gorsze niż laptop na twojej kanapie. 2X M4 Max (64GB każdy) działające na mlx-community/Qwen3-30B-A3B-4bit z prędkością 70 TPS