Nova pesquisa: FlashAttention-4 FlashAttention-4 alcança até 1,3x de aceleração em relação ao cuDNN 9.13 e 2,7x em relação ao Triton em GPUs B200 com BF16. FlashAttention-4 co-projeta algoritmos e pipelines de kernel para GPUs Blackwell, onde a taxa de transferência do núcleo tensor dobra, mas a largura de banda de memória e as unidades exponenciais escalam mais lentamente. As técnicas incluem operações MMA totalmente assíncronas, reescalonamento exponencial emulado por software e aproveitamento da memória tensor para reduzir o tráfego de memória compartilhada. FlashAttention-4 alcança até 1,3x de aceleração em relação ao cuDNN e 2,7x em relação ao Triton em GPUs B200, atingindo 1613 TFLOPs/s com 71% de utilização. Implementado inteiramente em Python via CuTe-DSL com tempos de compilação 20-30x mais rápidos em comparação com templates C++. Artigo: Aprenda a construir agentes de IA eficazes em nossa academia: