Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sonunda, günlerce belgeleri okuduktan veya iş parçacığı dizinlerinde hata ayıkladıktan sonra, MI300X'te DSC'de flaş dikkatini sıfırdan uygulayabildim!
İlk versiyon (turuncu), orijinal flaş dikkat makalesinin temel skaler versiyonudur.
İkinci versiyon (yeşil) aynı algoritmadır ancak matris çekirdekleri (AMD tensör çekirdekleri) kullanır ve görebileceğiniz gibi bu, skaler olandan *önemli ölçüde* daha hızlıdır.
Hem Sij = Qi @ Kj^T hem de Pij @ Vj'yi hesaplamak için matris çekirdeklerini kullandım.
AMD matris çekirdeklerinin bazı 'yakalamaları':
- Dalga cephesi bazında çalışırlar ve AMD'de bir dalga cephesi 64 iş parçacığıdır, bu da hem mevcut dalganın kimliğini hem de o dalga içindeki iş parçacığının kimliğini takip etmeniz gerektiği anlamına gelir.
- Bir matris çekirdeğinin çekirdek işleminin 4x1 dış ürün olması nedeniyle çıktı düzeni kayıtlarda karıştırılacaktır, bu nedenle bir yeniden sıralama adımı gereklidir.
- (Bildiğim kadarıyla) matris çekirdekleri için hipcc içselleri hiçbir yerde belgelenmemiştir. AMD'den bir sürü örnek içeren bir depo var, ancak bunun dışında LLVM kod tabanını grep etmeniz gerekecek.
Kodumu şimdi cilalayacağım ve sonra muhtemelen AMD'de flaş dikkat hakkında daha derinlemesine bir yazı yazacağım.
Oh ve bu arada, bunu mümkün kıldığınız için @HotAisle sesleniyorum!

En İyiler
Sıralama
Takip Listesi

