Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Penelitian baru: FlashAttention-4
FlashAttention-4 mencapai kecepatan hingga 1,3x melalui cuDNN 9.13 dan 2,7x melalui Triton pada GPU B200 dengan BF16.
FlashAttention-4 ikut merancang algoritme dan alur kernel untuk GPU Blackwell, di mana throughput inti tensor berlipat ganda tetapi bandwidth memori dan unit eksponensial menskalakan lebih lambat.
Tekniknya mencakup operasi MMA yang sepenuhnya asinkron, penskalaan ulang eksponensial yang ditiru perangkat lunak, dan memanfaatkan memori tensor untuk mengurangi lalu lintas memori bersama.
FlashAttention-4 mencapai kecepatan hingga 1,3x melalui cuDNN dan 2,7x melalui Triton pada GPU B200, mencapai 1613 TFLOP/s pada pemanfaatan 71%.
Diimplementasikan sepenuhnya dalam Python melalui CuTe-DSL dengan waktu kompilasi 20-30x lebih cepat dibandingkan dengan template C++.
Kertas:
Pelajari cara membangun agen AI yang efektif di akademi kami:

Teratas
Peringkat
Favorit
