Nghiên cứu mới: FlashAttention-4 FlashAttention-4 đạt được tốc độ nhanh hơn tới 1.3 lần so với cuDNN 9.13 và 2.7 lần so với Triton trên GPU B200 với BF16. FlashAttention-4 thiết kế đồng thời các thuật toán và quy trình kernel cho GPU Blackwell, nơi thông lượng của lõi tensor gấp đôi nhưng băng thông bộ nhớ và các đơn vị mũ tăng trưởng chậm hơn. Các kỹ thuật bao gồm các hoạt động MMA hoàn toàn bất đồng bộ, tái tỷ lệ mũ mô phỏng bằng phần mềm, và tận dụng bộ nhớ tensor để giảm lưu lượng bộ nhớ chia sẻ. FlashAttention-4 đạt được tốc độ nhanh hơn tới 1.3 lần so với cuDNN và 2.7 lần so với Triton trên GPU B200, đạt 1613 TFLOPs/s với mức sử dụng 71%. Được triển khai hoàn toàn bằng Python thông qua CuTe-DSL với thời gian biên dịch nhanh hơn 20-30 lần so với các mẫu C++. Bài báo: Học cách xây dựng các tác nhân AI hiệu quả trong học viện của chúng tôi: