أخيرا ، بعد أيام من قراءة المستندات أو تصحيح مؤشرات الخيوط ، تمكنت من تنفيذ انتباه الفلاش من البداية في DSC على MI300X! الإصدار الأول (برتقالي) هو الإصدار العددي الأساسي من ورقة الانتباه الفلاش الأصلية. الإصدار الثاني (الأخضر) هو نفس الخوارزمية ولكنه يستخدم نوى المصفوفة (نوى موتر AMD) وكما ترون ، فهذا * أسرع بشكل كبير * من الإصدار العددي. لقد استخدمت نوى المصفوفة لحساب كل من Sij = Qi @ Kj ^ T و Pij @ Vj. بعض "gotchas" من نوى مصفوفة AMD: - إنهم يعملون على أساس كل واجهة موجة وواجهة الموجة هي 64 خيطا على AMD ، وهذا يعني أنه يجب عليك تتبع كل من معرف الموجة الحالية وكذلك معرف الخيط داخل تلك الموجة. - سيتم خلط تخطيط الإخراج في السجلات نظرا لحقيقة أن التشغيل الأساسي لنواة المصفوفة هو منتج خارجي 4x1 ، لذلك يلزم إجراء خطوة إعادة الترتيب. - (على حد علمي) لم يتم توثيق جوهريات hipcc لنوى المصفوفة في أي مكان. يوجد مستودع يحتوي على مجموعة من الأمثلة من AMD ولكن بخلاف ذلك ، سيتعين عليك grep قاعدة بيانات LLVM. سأقوم بتلميع الكود الخاص بي بين الحين والآخر ، ومن المحتمل أن أكتب منشورا أكثر تعمقا حول انتباه الفلاش على AMD. أوه وراجع للشغل ، اصرخ @HotAisle لجعل هذا ممكنا!