المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
بحث جديد: فلاش انتباه-4
يحقق FlashAttention-4 تسارعا يصل إلى 1.3 مرة مقارنة ب cuDNN 9.13 و2.7x مقارنة ب Triton على معالجات B200 مع BF16.
يشارك FlashAttention-4 في تصميم الخوارزميات وخطوط أنابيب النواة لوحدات معالجة الرسوميات Blackwell، حيث يتضاعف معدل نقل النواة المtensor بينما تتوسع عرض النطاق الترددي للذاكرة والوحدات الأسية بشكل أبطأ.
تشمل التقنيات عمليات MMA غير متزامنة بالكامل، وإعادة تكبير أسي عبر البرمجيات، والاستفادة من ذاكرة التنسور لتقليل حركة الذاكرة المشتركة.
يحقق FlashAttention-4 تسارعا يصل إلى 1.3x مقارنة ب cuDNN و2.7x عن Triton على معالجات B200، ليصل إلى 1613 TFLOP في الثانية عند استخدام 71٪.
تم تنفيذها بالكامل بلغة بايثون عبر CuTe-DSL مع أوقات ترجمة أسرع بمقدار 20-30 مرة مقارنة بقوالب C++.
الورقة:
تعلم كيفية بناء وكلاء ذكاء اصطناعي فعالين في أكاديميتنا:

الأفضل
المُتصدِّرة
التطبيقات المفضلة
