Nouvelles recherches : FlashAttention-4 FlashAttention-4 atteint jusqu'à 1,3x d'accélération par rapport à cuDNN 9.13 et 2,7x par rapport à Triton sur des GPU B200 avec BF16. FlashAttention-4 co-conçoit des algorithmes et des pipelines de noyaux pour les GPU Blackwell, où le débit des cœurs tensoriels double mais la bande passante mémoire et les unités exponentielles évoluent plus lentement. Les techniques incluent des opérations MMA entièrement asynchrones, un redimensionnement exponentiel émulé par logiciel, et l'exploitation de la mémoire tensorielle pour réduire le trafic de mémoire partagée. FlashAttention-4 atteint jusqu'à 1,3x d'accélération par rapport à cuDNN et 2,7x par rapport à Triton sur des GPU B200, atteignant 1613 TFLOPs/s à 71 % d'utilisation. Implémenté entièrement en Python via CuTe-DSL avec des temps de compilation 20-30x plus rapides par rapport aux modèles C++. Article : Apprenez à construire des agents AI efficaces dans notre académie :