Att skala vetenskapliga världsmodeller kräver samdesign av arkitekturer, träningsmål och numerik. Idag delar vi de första inläggen i vår serie om lågprecisionsförträning, med start i NVIDIAs recept för NVFP4 för stabil 4-bitarsträning. Del 1: Del 2: Vi täcker grunderna i flyttals, heuristiker, anpassade CUDA-kärnor och stabiliseringstekniker. Framtida inlägg kommer att täcka anpassade recept och resultat på hybridarkitekturer.