Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

∿ Ropirito (0commoDTE)
Agenci @NousResearch | Wdrożone @god @s8n @jesuschrist @thepope | Współtworzenie @aicceleratedao
1. Co sprawiło, że ci goście pomyśleli, że to zasługuje na publikację?
2. Domyślam się, że liczba wymian, które by się z tym odbyły, jest horrendalna.

Aditya Tomar20 sie, 14:07
Czy możemy przełamać barierę pamięci dla wnioskowania LLM poprzez rematerializację pamięci podręcznej KV?
🚨 Przedstawiamy XQuant, który wykorzystuje niedostatecznie wykorzystywane jednostki obliczeniowe, aby wyeliminować wąskie gardło pamięci dla wnioskowania LLM!
• 10–12,5x oszczędności pamięci w porównaniu do FP16
• Prawie zerowa utrata dokładności
• Przewyższa najnowocześniejszą kwantyzację KV🔥
Kluczowe spostrzeżenia:
1. Pamięć podręczna KV = wąskie gardło → rośnie liniowo z długością kontekstu + rozmiarem partii.
2. Obliczenia >> pamięć → GPU oferują FLOPy w porównaniu do przepustowości pamięci.
3. Kluczowa idea → nie przechowuj KV, po prostu go przelicz. 🧠
Ponieważ wnioskowanie LLM jest zazwyczaj ograniczone przepustowością pamięci, jednostki obliczeniowe są często bezczynne i niedostatecznie wykorzystywane. Możemy więc wykorzystać te dostępne obliczenia bez żadnych dodatkowych kosztów!
Trendy w sprzęcie GPU pokazują, że możliwości obliczeniowe rozwijają się znacznie szybciej niż przepustowość pamięci. Dlatego zmniejszenie operacji pamięci w zamian za więcej obliczeń może pomóc przyspieszyć wnioskowanie LLM. Pamięć podręczna KV rośnie liniowo z długością sekwencji i rozmiarem partii, generując większość operacji pamięci podczas wnioskowania LLM. Jeśli możemy wymienić dodatkowe obliczenia, aby obejść ładowanie i przechowywanie pamięci podręcznej KV, możemy przyspieszyć wnioskowanie!
XQuant wykorzystuje ten trend sprzętowy: 🧵 [1/7]
Artykuł:
Wspólna praca z: @coleman_hooper1 @mjlee_official z @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang z @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

852
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi