متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

بحث جديد: فلاش انتباه-4 يحقق FlashAttention-4 تسارعا يصل إلى 1.3 مرة مقارنة ب cuDNN 9.13 و2.7x مقارنة ب Triton على معالجات B200 مع BF16. يشارك FlashAttention-4 في تصميم الخوارزميات وخطوط أنابيب النواة لوحدات معالجة الرسوميات Blackwell، حيث يتضاعف معدل نقل النواة المtensor بينما تتوسع عرض النطاق الترددي للذاكرة والوحدات الأسية بشكل أبطأ. تشمل التقنيات عمليات MMA غير متزامنة بالكامل، وإعادة تكبير أسي عبر البرمجيات، والاستفادة من ذاكرة التنسور لتقليل حركة الذاكرة المشتركة. يحقق FlashAttention-4 تسارعا يصل إلى 1.3x مقارنة ب cuDNN و2.7x عن Triton على معالجات B200، ليصل إلى 1613 TFLOP في الثانية عند استخدام 71٪. تم تنفيذها بالكامل بلغة بايثون عبر CuTe-DSL مع أوقات ترجمة أسرع بمقدار 20-30 مرة مقارنة بقوالب C++. الورقة: تعلم كيفية بناء وكلاء ذكاء اصطناعي فعالين في أكاديميتنا:

الأفضل

المُتصدِّرة

التطبيقات المفضلة