Escalar modelos científicos mundiales requiere co-diseño de arquitecturas, objetivos de formación y números. Hoy compartimos las primeras publicaciones de nuestra serie sobre preentrenamiento de baja precisión, comenzando con la receta NVFP4 de NVIDIA para un entrenamiento estable de 4 bits. Parte 1: Parte 2: Cubrimos fundamentos de coma flotante, heurísticas, kernels CUDA personalizados y técnicas de estabilización. Las futuras entradas cubrirán recetas personalizadas y resultados sobre arquitecturas híbridas.