Es ist möglich, Modelle jeder Größe mit Macs zu trainieren. Pipeline-Parallelismus ermöglicht dies - indem ein Teil des Modells auf jedes Gerät gelegt wird. Die Implementierung davon mit MLX auf Apple Silicon war eine ziemliche Herausforderung; ich habe einen Blogbeitrag geschrieben, der erklärt, wie es funktioniert. 🧵