Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
È piuttosto incredibile come la moltiplicazione di matrici, che è un'operazione così semplice, possa avere così tanta profondità e complessità quando cerchi di renderla estremamente veloce.
Miglioramenti notevoli nei chip Nvidia negli ultimi anni sono stati puramente per accelerare la moltiplicazione di matrici.
Ad esempio, nel B200 hai:
- Core Tensor (i co-processori solo per le moltiplicazioni di matrici). Possono gestire tile più grandi rispetto alle generazioni precedenti.
- Memoria Tensor, una nuova cache solo per memorizzare gli output intermedi dei core Tensor.
- Acceleratore di memoria Tensor (TMA), hardware (introdotto nell'H100) solo per spostare la memoria in modo asincrono per i core Tensor.
E poi ottieni molta complessità da tutto il software e le astrazioni necessarie per orchestrare tutto quell'hardware in modo efficiente.
Principali
Ranking
Preferiti

