Interessant onderzoek van Meta over hardware-schaaltrends. Meer GPU's betekent niet altijd snellere training. De standaardaanpak voor het schalen van LLM-training vandaag de dag blijft het probleem met meer hardware aan te pakken. Meer versnellers, meer parallelisme, meer rekencapaciteit. Echter, er is een plafond dat de meeste teams niet zien totdat ze het raken. Dit nieuwe onderzoek toont aan dat het schalen van het totale aantal versnellers voor training van grote modellen snel afnemende rendementen oplevert, zelfs met geoptimaliseerde hardware en parallelisatiestrategieën. De onderzoekers testten Llama-2-modellen (1B tot 70B parameters) over 8 tot 2.048 GPU's, variërend van V100, A100 en H100 hardware. Wat ontdekten ze? Bij het schalen van 128 naar 2.048 GPU's daalde de doorvoer met 37,22% terwijl het stroomverbruik per GPU slechts met 5,87% daalde. De boosdoener is communicatie-overhead. Op grote schaal worden AllGather en ReduceScatter (twee MPI-primitieven) operaties knelpunten. De meerderheid van de communicatie wordt blootgelegd, en berekeningen kunnen de latentie niet meer verbergen. Tegen-intuïtief worden modelparallelismestrategieën (tensor- en pijplijnparallelisme op graden 2-4) die eerder werden gedacht de hardwarebenutting te verminderen, eigenlijk preferabel op schaal. Ze verminderen de blootgestelde communicatie in vergelijking met pure dataparallelisme. Op nieuwere hardware wordt de benutting slechter, niet beter. De Model FLOPS Benutting daalde van 59,67% op A100 naar 40,77% op H100; snellere chips blootleggen meer communicatie-overhead. Waarom het belangrijk is: Het toevoegen van meer GPU's biedt slechte marginale prestaties per extra eenheid van vermogen of GPU-uur. Teams die schalen naar duizenden versnellers moeten hun parallelisatiestrategieën zorgvuldig heroverwegen in plaats van aan te nemen dat meer hardware gelijk staat aan snellere training.