Interessante Forschung von Meta zu Trends bei der Hardware-Skalierung. Mehr GPUs bedeuten nicht immer schnelleres Training. Der Standardansatz zur Skalierung des LLM-Trainings besteht heute darin, mehr Hardware in das Problem zu werfen. Mehr Beschleuniger, mehr Parallelität, mehr Rechenleistung. Es gibt jedoch eine Obergrenze, die die meisten Teams nicht sehen, bis sie sie erreichen. Diese neue Forschung zeigt, dass die Skalierung der Gesamtzahl der Beschleuniger für das Training großer Modelle schnell abnehmende Erträge bringt, selbst bei optimierter Hardware und Parallelisierungsstrategien. Die Forscher testeten Llama-2-Modelle (1B bis 70B Parameter) über 8 bis 2.048 GPUs, die V100-, A100- und H100-Hardware umspannten. Was haben sie herausgefunden? Bei der Skalierung von 128 auf 2.048 GPUs sank der Durchsatz um 37,22 %, während der Stromverbrauch pro GPU nur um 5,87 % fiel. Der Übeltäter ist der Kommunikationsaufwand. Bei großen Skalierungen werden AllGather- und ReduceScatter-Operationen (zwei MPI-Primitiven) zu Engpässen. Der Großteil der Kommunikation wird sichtbar, und die Berechnung kann die Latenz nicht mehr verbergen. Gegenteil der Intuition werden Modellparallelitätsstrategien (Tensor- und Pipeline-Parallelität bei Graden von 2-4), die zuvor als vorteilhaft für die Hardwareauslastung galten, tatsächlich bei großen Skalierungen bevorzugt. Sie reduzieren die sichtbare Kommunikation im Vergleich zur reinen Datenparallelität. Bei neuerer Hardware wird die Auslastung schlechter, nicht besser. Die Modell-FLOPS-Auslastung sank von 59,67 % bei A100 auf 40,77 % bei H100; schnellere Chips zeigen mehr Kommunikationsaufwand. Warum es wichtig ist: Mehr GPUs hinzuzufügen bietet eine schlechte marginale Leistung pro zusätzlicher Einheit von Energie oder GPU-Stunde. Teams, die auf Tausende von Beschleunigern skalieren, müssen ihre Parallelisierungsstrategien sorgfältig überdenken, anstatt anzunehmen, dass mehr Hardware gleich schnellerem Training entspricht.