Interessant forskning fra Meta om trender innen maskinvareskalering. Flere GPU-er betyr ikke alltid raskere trening. Standardmetoden for å skalere LLM-trening i dag er fortsatt å kaste mer maskinvare på problemet. Flere akseleratorer, mer parallellisme, mer datakraft. Men det finnes et tak som de fleste lag ikke ser før de når det. Denne nye forskningen viser at det å skalere det totale antallet akseleratorer for trening av store modeller raskt gir avtagende avkastning, selv med optimalisert maskinvare og parallelliseringsstrategier. Forskerne testet Llama-2-modeller (1B til 70B parametere) på 8 til 2 048 GPU-er som dekker V100, A100 og H100-maskinvare. Hva fant de? Når man skalerte fra 128 til 2 048 GPU-er, sank gjennomstrømningen med 37,22 %, mens strømforbruket per GPU bare falt med 5,87 %. Årsaken er kommunikasjonsoverhead. I stor skala blir AllGagat- og ReduceScatter-operasjoner (to MPI-primitiver) flaskehalser. Størstedelen av kommunikasjonen blir eksponert, og beregninger kan ikke lenger skjule latensen. Mot intuisjonen blir modellparallellismestrategier (tensor- og rørledningsparallellisme på grad 2-4) som tidligere ble antatt å redusere maskinvareutnyttelsen, faktisk å foretrekke i stor skala. De reduserer eksponert kommunikasjon sammenlignet med ren dataparallellisme. På nyere maskinvare blir utnyttelsen dårligere, ikke bedre. Bruken av Model FLOPS falt fra 59,67 % på A100 til 40,77 % på H100; Raskere brikker eksponerer mer kommunikasjonsoverhead. Hvorfor det er viktig: Å legge til flere GPU-er gir dårlig marginal ytelse per ekstra enhet strøm eller GPU-time. Team som skalerer til tusenvis av akseleratorer må nøye revurdere parallelliseringsstrategier i stedet for å anta at mer maskinvare betyr raskere opplæring.