Nuove ricerche: FlashAttention-4 FlashAttention-4 raggiunge fino a 1,3 volte la velocità rispetto a cuDNN 9.13 e 2,7 volte rispetto a Triton su GPU B200 con BF16. FlashAttention-4 co-progetta algoritmi e pipeline di kernel per GPU Blackwell, dove il throughput dei core tensor raddoppia, ma la larghezza di banda della memoria e le unità esponenziali scalano più lentamente. Le tecniche includono operazioni MMA completamente asincrone, ridimensionamento esponenziale emulato via software e sfruttamento della memoria tensoriale per ridurre il traffico della memoria condivisa. FlashAttention-4 raggiunge fino a 1,3 volte la velocità rispetto a cuDNN e 2,7 volte rispetto a Triton su GPU B200, raggiungendo 1613 TFLOPs/s con un utilizzo del 71%. Implementato interamente in Python tramite CuTe-DSL con tempi di compilazione 20-30 volte più veloci rispetto ai template C++. Documento: Impara a costruire agenti AI efficaci nella nostra accademia: