Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Uusi tutkimus: FlashAttention-4
FlashAttention-4 saavuttaa jopa 1,3-kertaisen nopeutuksen verrattuna cuDNN 9.13:een verrattuna ja 2,7-kertaisen nopeuden Tritoniin verrattuna B200-näytönohjaimilla BF16:lla.
FlashAttention-4 suunnittelee yhdessä algoritmeja ja ydinputkia Blackwellin GPU:ille, joissa tensoriytimien läpimeno kaksinkertaistuu, mutta muistin kaistanleveys ja eksponentiaaliset yksiköt skaalautuvat hitaammin.
Tekniikoihin kuuluvat täysin asynkroniset MMA-toiminnot, ohjelmistoemuloitu eksponentiaalinen uudelleenskaalaus sekä tensorimuistin hyödyntäminen jaetun muistiliikenteen vähentämiseksi.
FlashAttention-4 saavuttaa jopa 1,3-kertaisen nopeuden verrattuna cuDNN:ään ja 2,7-kertaiseen Tritoniin verrattuna B200-näytönohjaimilla, saavuttaen 1613 TFLOP/s 71 % käyttöasteella.
Toteutettu kokonaan Pythonilla CuTe-DSL:n kautta, ja käännösajat ovat 20–30 kertaa nopeammat verrattuna C++-malleihin.
Artikkeli:
Opettele rakentamaan tehokkaita tekoälyagentteja akatemiassamme:

Johtavat
Rankkaus
Suosikit
