Uusi tutkimus: FlashAttention-4 FlashAttention-4 saavuttaa jopa 1,3-kertaisen nopeutuksen verrattuna cuDNN 9.13:een verrattuna ja 2,7-kertaisen nopeuden Tritoniin verrattuna B200-näytönohjaimilla BF16:lla. FlashAttention-4 suunnittelee yhdessä algoritmeja ja ydinputkia Blackwellin GPU:ille, joissa tensoriytimien läpimeno kaksinkertaistuu, mutta muistin kaistanleveys ja eksponentiaaliset yksiköt skaalautuvat hitaammin. Tekniikoihin kuuluvat täysin asynkroniset MMA-toiminnot, ohjelmistoemuloitu eksponentiaalinen uudelleenskaalaus sekä tensorimuistin hyödyntäminen jaetun muistiliikenteen vähentämiseksi. FlashAttention-4 saavuttaa jopa 1,3-kertaisen nopeuden verrattuna cuDNN:ään ja 2,7-kertaiseen Tritoniin verrattuna B200-näytönohjaimilla, saavuttaen 1613 TFLOP/s 71 % käyttöasteella. Toteutettu kokonaan Pythonilla CuTe-DSL:n kautta, ja käännösajat ovat 20–30 kertaa nopeammat verrattuna C++-malleihin. Artikkeli: Opettele rakentamaan tehokkaita tekoälyagentteja akatemiassamme: