Una breve spiegazione della differenza tra l'addestramento consapevole della quantizzazione (QAT), come Kimi K2, e l'addestramento a bassa precisione (ad esempio FP4). Ecco un'immagine di come appare l'operazione in avanti per ciascuno. L'addestramento QAT è principalmente un'ottimizzazione dell'inferenza per ridurre la latenza (cioè i token al secondo per la decodifica di piccoli batch). La produttività complessiva è probabilmente inferiore rispetto all'uso diretto di bf16 o fp8 poiché durante l'addestramento hai un'ulteriore quantizzazione+dequantizzazione prima di ogni gemm. L'addestramento a bassa precisione (ad es. FP4) quantizza sia i pesi che le attivazioni e non dequantizza prima delle moltiplicazioni di matrici. Se fatto correttamente, la produttività dovrebbe aumentare notevolmente. L'intero scopo è accelerare le gemm utilizzando input a bassa precisione.