新研究:FlashAttention-4 FlashAttention-4は、B200 GPU搭載BF16上でcuDNN 9.13に比べて最大1.3倍、Tritonに対して最大2.7倍の高速化を実現します。 FlashAttention-4は、テンソルコアスループットが倍増する一方でメモリ帯域幅や指数関数単位のスケールが遅いBlackwell GPU向けのアルゴリズムとカーネルパイプラインを共同設計しています。 技術には、完全非同期のMMA操作、ソフトウェアエミュレートによる指数関数的再スケーリング、そしてテンソルメモリを活用して共有メモリトラフィックを削減することが含まれます。 FlashAttention-4は、B200 GPU上でcuDNNより最大1.3倍、Tritonより2.7倍の高速化を実現し、71%の利用率で1613 TFLOPs/sに達します。 CuTe-DSL経由で完全にPythonで実装され、C++テンプレートと比べて20〜30倍速いコンパイル時間を実現しています。 論文: 私たちのアカデミーで効果的なAIエージェントの構築方法を学びましょう: