Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Det er ganske vilt hvordan matrisemultiplikasjonen, som er en så enkel operasjon, kan ha så mye dybde og kompleksitet når du prøver å gjøre den ekstremt rask.
Mange av de mest bemerkelsesverdige forbedringene i Nvidias brikker de siste generasjonene er utelukkende for å akselerere matrisemultiplikasjon.
I B200 har du for eksempel:
- Tensor-kjerner (co-prosessorene bare for matmuls). De kan lage større fliser enn tidligere generasjoner.
- Tensor-minne, en ny cache bare for å lagre mellomliggende utganger fra tensorkjerner.
- Tensor minneakselerator (TMA), maskinvare (introdusert i H100) bare for å flytte minne asynkront for tensorkjerner.
Og så får du mye kompleksitet fra all programvaren og abstraksjonene du trenger for å orkestrere all den maskinvaren effektivt.
Topp
Rangering
Favoritter

