Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nowe badania: FlashAttention-4
FlashAttention-4 osiąga do 1,3x przyspieszenia w porównaniu do cuDNN 9.13 i 2,7x w porównaniu do Triton na GPU B200 z BF16.
FlashAttention-4 współprojektuje algorytmy i potoki rdzeni dla GPU Blackwell, gdzie przepustowość rdzeni tensorowych podwaja się, ale przepustowość pamięci i jednostki wykładnicze skalują się wolniej.
Techniki obejmują w pełni asynchroniczne operacje MMA, oprogramowanie emulujące wykładnicze przeskalowanie oraz wykorzystanie pamięci tensorowej w celu zmniejszenia ruchu w pamięci współdzielonej.
FlashAttention-4 osiąga do 1,3x przyspieszenia w porównaniu do cuDNN i 2,7x w porównaniu do Triton na GPU B200, osiągając 1613 TFLOPs/s przy 71% wykorzystaniu.
Zaimplementowane w całości w Pythonie za pomocą CuTe-DSL z czasami kompilacji 20-30x szybszymi w porównaniu do szablonów C++.
Artykuł:
Naucz się budować skuteczne agenty AI w naszej akademii:

Najlepsze
Ranking
Ulubione
