Cercetări noi: FlashAttention-4 FlashAttention-4 atinge o viteză de până la 1,3x față de cuDNN 9,13 și 2,7x față de Triton pe GPU-urile B200 cu BF16. FlashAttention-4 co-proiectează algoritmi și pipeline-uri de kernel pentru GPU-urile Blackwell, unde debitul nucleului tensor se dublează, dar lățimea de bandă a memoriei și unitățile exponențiale cresc mai lent. Tehnicile includ operațiuni MMA complet asincrone, rescalare exponențială emulată de software și valorificarea memoriei tensoriale pentru reducerea traficului de memorie partajată. FlashAttention-4 atinge o viteză de până la 1,3x față de cuDNN și 2,7x față de Triton pe GPU-urile B200, ajungând la 1613 TFLOPs/s la o utilizare de 71%. Implementat integral în Python prin CuTe-DSL, cu timpi de compilare de 20-30 de ori mai rapizi comparativ cu șabloanele C++. Hârtie: Învață să construiești agenți AI eficienți în academia noastră: