Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nouvelles recherches : FlashAttention-4
FlashAttention-4 atteint jusqu'à 1,3x d'accélération par rapport à cuDNN 9.13 et 2,7x par rapport à Triton sur des GPU B200 avec BF16.
FlashAttention-4 co-conçoit des algorithmes et des pipelines de noyaux pour les GPU Blackwell, où le débit des cœurs tensoriels double mais la bande passante mémoire et les unités exponentielles évoluent plus lentement.
Les techniques incluent des opérations MMA entièrement asynchrones, un redimensionnement exponentiel émulé par logiciel, et l'exploitation de la mémoire tensorielle pour réduire le trafic de mémoire partagée.
FlashAttention-4 atteint jusqu'à 1,3x d'accélération par rapport à cuDNN et 2,7x par rapport à Triton sur des GPU B200, atteignant 1613 TFLOPs/s à 71 % d'utilisation.
Implémenté entièrement en Python via CuTe-DSL avec des temps de compilation 20-30x plus rapides par rapport aux modèles C++.
Article :
Apprenez à construire des agents AI efficaces dans notre académie :

Meilleurs
Classement
Favoris
