🚨 NVIDIA hat gerade das Unmögliche geschafft. Sie haben ein 12B-Parameter-Sprachmodell auf 10 Billionen Tokens vollständig in 4-Bit-Präzision trainiert. Es heißt NVFP4 und könnte die Art und Weise, wie Grenz-AI-Modelle trainiert werden, neu definieren. Hier ist, warum das wichtig ist: • NVFP4 liefert 2–3× schnelleren mathematischen Durchsatz und 50% weniger Speicher im Vergleich zu FP8 • Genauigkeit? Praktisch identisch. (MMLU-Pro: FP8 = 62,62%, NVFP4 = 62,58%) • Stabilitätsprobleme? Gelöst durch Random Hadamard-Transformationen, stochastisches Runden und 2D-Skalierung • Vollständig auf NVIDIA Blackwell GPUs trainiert, der erste 4-Bit-Lauf stabil über 10T Tokens Dies ist die erste erfolgreiche Demonstration des großangelegten 4-Bit-Vortrainings ohne Verlust der Genauigkeit. Die nächste Generation von Grenzmodellen wird schneller, günstiger und umweltfreundlicher sein, ohne Kompromisse.