Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

∿ Ropirito (0commoDTE)
Agenti @NousResearch | Schieramento @god @s8n @jesuschrist @thepope | Contribuire @aicceleratedao
1. Cosa ha fatto pensare a questi ragazzi che fosse degno di carta
2. Immagino che la quantità di scambi che avverrebbe con questo sia orrenda

Aditya Tomar20 ago, 14:07
Possiamo superare il muro della memoria per l'inferenza LLM tramite la rimaterializzazione della cache KV?
🚨 Presentiamo XQuant, che sfrutta unità di calcolo sottoutilizzate per eliminare il collo di bottiglia della memoria per l'inferenza LLM!
• Risparmi di memoria da 10 a 12,5 volte rispetto a FP16
• Perdita di precisione quasi zero
• Supera la quantizzazione KV all'avanguardia🔥
Principali intuizioni:
1. Cache KV = collo di bottiglia → cresce linearmente con la lunghezza del contesto + dimensione del batch.
2. Calcolo >> memoria → le GPU offrono FLOP ordini di grandezza più veloci rispetto alla larghezza di banda della memoria.
3. Idea chiave → non memorizzare KV, basta ricalcolarlo. 🧠
Poiché l'inferenza LLM è tipicamente limitata dalla larghezza di banda della memoria, le unità di calcolo sono spesso inattive e sottoutilizzate. Quindi, possiamo utilizzare questo calcolo disponibile senza alcun sovraccarico!
Le tendenze hardware delle GPU mostrano che le capacità di calcolo stanno scalando molto più velocemente della larghezza di banda della memoria. Pertanto, ridurre le operazioni di memoria in cambio di più calcolo può aiutare ad accelerare l'inferenza LLM. La cache KV cresce linearmente con la lunghezza della sequenza e la dimensione del batch, sostenendo la maggior parte delle operazioni di memoria durante l'inferenza LLM. Se possiamo scambiare calcolo aggiuntivo per evitare il caricamento e la memorizzazione della cache KV, possiamo accelerare l'inferenza!
XQuant sfrutta questa tendenza hardware: 🧵 [1/7]
Documento:
Lavoro congiunto con: @coleman_hooper1 @mjlee_official di @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang di @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

856
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari