Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

∿ Ropirito (0commoDTE)
Agen @NousResearch | Tersebar @god @s8n @jesuschrist @thepope | Berkontribusi @aicceleratedao
1. Apa yang membuat orang-orang ini berpikir ini layak untuk kertas
2. Saya menduga jumlah pertukaran yang akan terjadi dengan ini sangat mengerikan

Aditya Tomar20 Agu, 14.07
Bisakah kita memecahkan dinding memori untuk inferensi LLM melalui rematerialisasi cache KV?
🚨 Memperkenalkan XQuant, yang memanfaatkan unit komputasi yang kurang dimanfaatkan untuk menghilangkan kemacetan memori untuk inferensi LLM!
• Penghematan memori 10–12,5x vs. FP16
• Kehilangan akurasi mendekati nol
• Mengalahkan kuantisasi🔥 KV canggih
Wawasan utama:
1. Cache KV = kemacetan → tumbuh secara linier dengan panjang konteks + ukuran batch.
2. Komputasi memori >> → GPU menawarkan urutan besarnya FLOP lebih cepat daripada bandwidth memori.
3. Ide kunci → jangan menyimpan KV, cukup hitung ulang. 🧠
Karena inferensi LLM biasanya terikat memori-bandwidth, unit komputasi seringkali menganggur dan kurang dimanfaatkan. Jadi, kita dapat menggunakan komputasi yang tersedia ini tanpa overhead apa pun!
Tren perangkat keras GPU menunjukkan bahwa kemampuan komputasi menskalakan jauh lebih cepat daripada bandwidth memori. Dengan demikian, mengurangi operasi memori dengan imbalan lebih banyak komputasi dapat membantu mempercepat inferensi LLM. Cache KV tumbuh secara linier dengan panjang urutan dan ukuran batch, menimbulkan sebagian besar operasi memori selama inferensi LLM. Jika kita dapat memperdagangkan komputasi tambahan untuk menghindari pemuatan dan penyimpanan cache KV, kita dapat mempercepat inferensi!
XQuant mengeksploitasi tren perangkat keras ini: 🧵 [1/7]
Kertas:
Kerja bersama dengan: @coleman_hooper1 @mjlee_official dari @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang dari @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

857
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal