Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

∿ Ropirito (0commoDTE)
Agenten @NousResearch | Bereitgestellte @god @s8n @jesuschrist @thepope | Beitragen @aicceleratedao
1. Was hat diese Leute dazu gebracht zu denken, dass das papierwürdig ist?
2. Ich schätze, die Anzahl der Swaps, die damit stattfinden würden, ist horrend.

Aditya Tomar20. Aug., 14:07
Können wir die Speichergrenze für LLM-Inferenz durch die Rematerialisierung des KV-Caches durchbrechen?
🚨 Einführung von XQuant, das ungenutzte Recheneinheiten nutzt, um den Speicherengpass für LLM-Inferenz zu beseitigen!
• 10–12,5x Speicherersparnis im Vergleich zu FP16
• Nahezu kein Genauigkeitsverlust
• Übertrifft den Stand der Technik bei KV-Quantisierung🔥
Wichtige Erkenntnisse:
1. KV-Cache = Engpass → wächst linear mit der Kontextlänge + Batch-Größe.
2. Rechenleistung >> Speicher → GPUs bieten FLOPs, die um Größenordnungen schneller sind als die Speicherbandbreite.
3. Schlüsselidee → speichere KV nicht, berechne es einfach neu. 🧠
Da die LLM-Inferenz typischerweise speicherbandbreitengebunden ist, sind Recheneinheiten oft untätig und ungenutzt. Daher können wir diese verfügbare Rechenleistung ohne zusätzlichen Aufwand nutzen!
Die Trends in der GPU-Hardware zeigen, dass die Rechenfähigkeiten viel schneller skalieren als die Speicherbandbreite. Daher kann die Reduzierung von Speicheroperationen im Austausch für mehr Berechnung dazu beitragen, die LLM-Inferenz zu beschleunigen. Der KV-Cache wächst linear mit der Sequenzlänge und der Batch-Größe und verursacht während der LLM-Inferenz die Mehrheit der Speicheroperationen. Wenn wir zusätzliche Berechnungen eintauschen können, um das Laden und Speichern des KV-Caches zu umgehen, können wir die Inferenz beschleunigen!
XQuant nutzt diesen Hardware-Trend aus: 🧵 [1/7]
Papier:
Gemeinsame Arbeit mit: @coleman_hooper1 @mjlee_official von @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang von @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

858
Top
Ranking
Favoriten
Onchain-Trends
Im Trend auf X
Aktuelle Top-Finanzierungen
Am bemerkenswertesten