PSA : Si vous avez plusieurs MacBooks qui prennent en charge RDMA, vous pouvez les regrouper en utilisant @exolabs et exécuter des modèles de plus de 30B à 70 tok/s via Thunderbolt 5. Le parallélisme tensoriel sur du matériel grand public est un problème résolu. Vous louez des GPU qui sont pires que l'ordinateur portable sur votre canapé. 2X M4 Max (64 Go chacun) exécutant mlx-community/Qwen3-30B-A3B-4bit à 70 TPS