Nowe badania: FlashAttention-4 FlashAttention-4 osiąga do 1,3x przyspieszenia w porównaniu do cuDNN 9.13 i 2,7x w porównaniu do Triton na GPU B200 z BF16. FlashAttention-4 współprojektuje algorytmy i potoki rdzeni dla GPU Blackwell, gdzie przepustowość rdzeni tensorowych podwaja się, ale przepustowość pamięci i jednostki wykładnicze skalują się wolniej. Techniki obejmują w pełni asynchroniczne operacje MMA, oprogramowanie emulujące wykładnicze przeskalowanie oraz wykorzystanie pamięci tensorowej w celu zmniejszenia ruchu w pamięci współdzielonej. FlashAttention-4 osiąga do 1,3x przyspieszenia w porównaniu do cuDNN i 2,7x w porównaniu do Triton na GPU B200, osiągając 1613 TFLOPs/s przy 71% wykorzystaniu. Zaimplementowane w całości w Pythonie za pomocą CuTe-DSL z czasami kompilacji 20-30x szybszymi w porównaniu do szablonów C++. Artykuł: Naucz się budować skuteczne agenty AI w naszej akademii: