Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cercetări noi: FlashAttention-4
FlashAttention-4 atinge o viteză de până la 1,3x față de cuDNN 9,13 și 2,7x față de Triton pe GPU-urile B200 cu BF16.
FlashAttention-4 co-proiectează algoritmi și pipeline-uri de kernel pentru GPU-urile Blackwell, unde debitul nucleului tensor se dublează, dar lățimea de bandă a memoriei și unitățile exponențiale cresc mai lent.
Tehnicile includ operațiuni MMA complet asincrone, rescalare exponențială emulată de software și valorificarea memoriei tensoriale pentru reducerea traficului de memorie partajată.
FlashAttention-4 atinge o viteză de până la 1,3x față de cuDNN și 2,7x față de Triton pe GPU-urile B200, ajungând la 1613 TFLOPs/s la o utilizare de 71%.
Implementat integral în Python prin CuTe-DSL, cu timpi de compilare de 20-30 de ori mai rapizi comparativ cu șabloanele C++.
Hârtie:
Învață să construiești agenți AI eficienți în academia noastră:

Limită superioară
Clasament
Favorite
