量化感知訓練(QAT),例如 Kimi K2,與低精度(例如 FP4)訓練之間的區別簡要說明。以下是每種情況下前向操作的圖片。 QAT 訓練主要是一種推理優化,用於減少延遲(即小批量解碼的每秒令牌數)。整體吞吐量可能低於直接使用 bf16 或 fp8,因為在訓練過程中,每次 gemm 之前都有額外的量化和反量化。 低精度訓練(例如 FP4)對權重和激活進行量化,並且在矩陣乘法之前不進行反量化。如果操作得當,吞吐量應該會大幅提高。整個重點是通過使用較低精度的輸入來加速 gemm。