Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Una breve spiegazione della differenza tra l'addestramento consapevole della quantizzazione (QAT), come Kimi K2, e l'addestramento a bassa precisione (ad esempio FP4). Ecco un'immagine di come appare l'operazione in avanti per ciascuno.
L'addestramento QAT è principalmente un'ottimizzazione dell'inferenza per ridurre la latenza (cioè i token al secondo per la decodifica di piccoli batch). La produttività complessiva è probabilmente inferiore rispetto all'uso diretto di bf16 o fp8 poiché durante l'addestramento hai un'ulteriore quantizzazione+dequantizzazione prima di ogni gemm.
L'addestramento a bassa precisione (ad es. FP4) quantizza sia i pesi che le attivazioni e non dequantizza prima delle moltiplicazioni di matrici. Se fatto correttamente, la produttività dovrebbe aumentare notevolmente. L'intero scopo è accelerare le gemm utilizzando input a bassa precisione.

Principali
Ranking
Preferiti

