Det er ganske vilt hvordan matrisemultiplikasjonen, som er en så enkel operasjon, kan ha så mye dybde og kompleksitet når du prøver å gjøre den ekstremt rask. Mange av de mest bemerkelsesverdige forbedringene i Nvidias brikker de siste generasjonene er utelukkende for å akselerere matrisemultiplikasjon. I B200 har du for eksempel: - Tensor-kjerner (co-prosessorene bare for matmuls). De kan lage større fliser enn tidligere generasjoner. - Tensor-minne, en ny cache bare for å lagre mellomliggende utganger fra tensorkjerner. - Tensor minneakselerator (TMA), maskinvare (introdusert i H100) bare for å flytte minne asynkront for tensorkjerner. Og så får du mye kompleksitet fra all programvaren og abstraksjonene du trenger for å orkestrere all den maskinvaren effektivt.