トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kimi K2 のような量子化認識トレーニング (QAT) と、低精度 (FP4 など) トレーニングの違いを簡単に説明します。それぞれのフォワード操作がどのように見えるかの写真を次に示します。
QATトレーニングは、主にレイテンシーを減らすための推論最適化です(つまり、小規模なバッチデコードの1秒あたりのトークン数)。全体的なスループットは、トレーニング中に各 gemm の前に追加の量子化 + 逆量子化があるため、bf16 または fp8 を直接使用するよりも低くなる可能性があります。
低精度のトレーニング(FP4など)は、重みと活性化の両方を量子化し、マトムの前にデクオンタイズしません。適切に行えば、スループットは大幅に向上するはずです。重要なのは、より低い精度の入力を使用してジェムを高速化することです。

トップ
ランキング
お気に入り

