Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

∿ Ropirito (0commoDTE)
Agents @NousResearch | Déploiement @god @s8n @jesuschrist @thepope | Contribuer @aicceleratedao
1. Qu'est-ce qui a poussé ces gars à penser que c'était digne d'être publié ?
2. Je parie que le nombre d'échanges qui se produiraient avec ça est horrifiant.

Aditya Tomar20 août, 14:07
Pouvons-nous briser le mur de la mémoire pour l'inférence LLM via la rematérialisation du cache KV ?
🚨 Présentation de XQuant, qui exploite des unités de calcul sous-utilisées pour éliminer le goulet d'étranglement de la mémoire pour l'inférence LLM !
• Économies de mémoire de 10 à 12,5 fois par rapport à FP16
• Perte de précision presque nulle
• Dépasse la quantification KV à la pointe de la technologie 🔥
Principaux points à retenir :
1. Cache KV = goulet d'étranglement → croît linéairement avec la longueur du contexte + la taille du lot.
2. Calcul >> mémoire → les GPU offrent des FLOPs des ordres de grandeur plus rapides que la bande passante mémoire.
3. Idée clé → ne pas stocker KV, juste le recalculer. 🧠
Étant donné que l'inférence LLM est généralement limitée par la bande passante mémoire, les unités de calcul sont souvent inactives et sous-utilisées. Ainsi, nous pouvons mettre ce calcul disponible à profit sans aucun surcoût !
Les tendances du matériel GPU montrent que les capacités de calcul évoluent beaucoup plus rapidement que la bande passante mémoire. Ainsi, réduire les opérations mémoire en échange de plus de calcul peut aider à accélérer l'inférence LLM. Le cache KV croît linéairement avec la longueur de la séquence et la taille du lot, entraînant la majorité des opérations mémoire lors de l'inférence LLM. Si nous pouvons échanger un calcul supplémentaire pour contourner le chargement et le stockage du cache KV, nous pouvons accélérer l'inférence !
XQuant exploite cette tendance matérielle : 🧵 [1/7]
Article :
Travail conjoint avec : @coleman_hooper1 @mjlee_official de @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang de @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

853
Meilleurs
Classement
Favoris
Tendance on-chain
Tendance sur X
Récents financements de premier plan
Les plus notables