Het schalen van wetenschappelijke wereldmodellen vereist het co-ontwerpen van architecturen, trainingsdoelen en numeriek. Vandaag delen we de eerste berichten in onze serie over low-precision pretraining, te beginnen met NVIDIA's NVFP4-recept voor stabiele 4-bits training. Deel 1: Deel 2: We behandelen de basisprincipes van drijvende komma, heuristieken, aangepaste CUDA-kernels en stabilisatietechnieken. Toekomstige bijdragen zullen aangepaste recepten en resultaten op hybride architecturen behandelen.