Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

∿ Ropirito (0commoDTE)
Agentes @NousResearch | Implantado @god @s8n @jesuschrist @thepope | Contribuindo @aicceleratedao
1. O que fez esses caras acharem que isso era digno de papel
2. Estou a adivinhar que a quantidade de trocas que aconteceria com isso é horrenda

Aditya Tomar20/08, 14:07
Podemos quebrar a barreira da memória para a inferência de LLM através da rematerialização do cache KV?
🚨 Apresentando o XQuant, que aproveita unidades de computação subutilizadas para eliminar o gargalo de memória na inferência de LLM!
• 10–12.5x de economia de memória em comparação com FP16
• Quase nenhuma perda de precisão
• Supera a quantização KV de última geração🔥
Principais insights:
1. Cache KV = gargalo → cresce linearmente com o comprimento do contexto + tamanho do lote.
2. Computação >> memória → GPUs oferecem FLOPs em ordens de magnitude mais rápidas do que a largura de banda da memória.
3. Ideia chave → não armazene KV, apenas recompute-o. 🧠
Como a inferência de LLM é tipicamente limitada pela largura de banda da memória, as unidades de computação estão frequentemente ociosas e subutilizadas. Portanto, podemos utilizar essa computação disponível sem qualquer sobrecarga!
As tendências de hardware de GPU mostram que as capacidades de computação estão escalando muito mais rápido do que a largura de banda da memória. Assim, reduzir operações de memória em troca de mais computação pode ajudar a acelerar a inferência de LLM. O cache KV cresce linearmente com o comprimento da sequência e o tamanho do lote, incorrendo na maioria das operações de memória durante a inferência de LLM. Se pudermos trocar computação adicional para contornar o carregamento e armazenamento do cache KV, podemos acelerar a inferência!
O XQuant explora essa tendência de hardware: 🧵 [1/7]
Artigo:
Trabalho conjunto com: @coleman_hooper1 @mjlee_official da @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang da @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

851
Top
Classificação
Favoritos
Tendências on-chain
Popular no X
Principais financiamentos atuais
Mais notável