Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nuove ricerche: FlashAttention-4
FlashAttention-4 raggiunge fino a 1,3 volte la velocità rispetto a cuDNN 9.13 e 2,7 volte rispetto a Triton su GPU B200 con BF16.
FlashAttention-4 co-progetta algoritmi e pipeline di kernel per GPU Blackwell, dove il throughput dei core tensor raddoppia, ma la larghezza di banda della memoria e le unità esponenziali scalano più lentamente.
Le tecniche includono operazioni MMA completamente asincrone, ridimensionamento esponenziale emulato via software e sfruttamento della memoria tensoriale per ridurre il traffico della memoria condivisa.
FlashAttention-4 raggiunge fino a 1,3 volte la velocità rispetto a cuDNN e 2,7 volte rispetto a Triton su GPU B200, raggiungendo 1613 TFLOPs/s con un utilizzo del 71%.
Implementato interamente in Python tramite CuTe-DSL con tempi di compilazione 20-30 volte più veloci rispetto ai template C++.
Documento:
Impara a costruire agenti AI efficaci nella nostra accademia:

Principali
Ranking
Preferiti
