La scalabilità dei modelli scientifici richiede la co-progettazione di architetture, obiettivi di addestramento e numerica. Oggi condividiamo i primi post della nostra serie sul pre-addestramento a bassa precisione, iniziando con la ricetta NVFP4 di NVIDIA per un addestramento stabile a 4 bit. Parte 1: Parte 2: Copriamo i fondamenti dei numeri in virgola mobile, le euristiche, i kernel CUDA personalizzati e le tecniche di stabilizzazione. I futuri articoli tratteranno ricette personalizzate e risultati su architetture ibride.