Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
En rask forklaring på forskjellen mellom kvantiseringsbevisst trening (QAT), som Kimi K2, og trening med lav presisjon (si FP4). Her er et bilde av hvordan den fremskutte operasjonen ser ut for hver.
QAT-trening er for det meste en slutningsoptimalisering for å redusere ventetiden (dvs. tokener per sekund for dekoding av små partier). Den totale gjennomstrømningen er sannsynligvis lavere enn å bruke bf16 eller fp8 direkte, siden du under trening har en ekstra kvantisering+dekvantisering før hver perle.
Trening med lav presisjon (f.eks. FP4) kvantiserer både vekter og aktiveringer og dekvantiserer ikke før matmuls. Hvis det gjøres riktig, bør gjennomstrømningen øke mye. Hele poenget er å akselerere perlene ved å bruke innganger med lavere presisjon.

Topp
Rangering
Favoritter

