Loja DApp | Hub Web3 para eventos e jogos

Explore the Momentum ecosystem and earn $1.015M in rewards

Tópicos populares

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-3,1%

Boopa-4,19%

PORK+6,99%

∿ Ropirito (0commoDTE)

Agentes @NousResearch | Implantado @god @s8n @jesuschrist @thepope | Contribuindo @aicceleratedao

∿ Ropirito (0commoDTE)Há 2 horas

Equipe MLX na cadeira do cuca a seguir

372

∿ Ropirito (0commoDTE)22/08, 03:57

Tenho brincado muito com o Strudel ultimamente

574

∿ Ropirito (0commoDTE)22/08, 01:58

Você pensaria que Elon seria pelo menos criativo o suficiente para fazer um goonbot com apelo de massa, mas em vez disso, ele apenas copiou e colou Misa Amane e deu por encerrado.

713

∿ Ropirito (0commoDTE)22/08, 01:16

Nikita Bier (Chief Goonitech na X) é um câncer na sociedade e trazê-lo a bordo é como pedir ao Ceifador que semeie a sua plataforma.

560

∿ Ropirito (0commoDTE)22/08, 01:12

Eu me pergunto como é criar um paradigma totalmente novo de tecnologia e vê-lo murchar.

793

∿ Ropirito (0commoDTE)22/08, 00:07

1. O que fez esses caras acharem que isso era digno de papel 2. Estou a adivinhar que a quantidade de trocas que aconteceria com isso é horrenda

Aditya Tomar20/08, 14:07

Podemos quebrar a barreira da memória para a inferência de LLM através da rematerialização do cache KV? 🚨 Apresentando o XQuant, que aproveita unidades de computação subutilizadas para eliminar o gargalo de memória na inferência de LLM! • 10–12.5x de economia de memória em comparação com FP16 • Quase nenhuma perda de precisão • Supera a quantização KV de última geração🔥 Principais insights: 1. Cache KV = gargalo → cresce linearmente com o comprimento do contexto + tamanho do lote. 2. Computação >> memória → GPUs oferecem FLOPs em ordens de magnitude mais rápidas do que a largura de banda da memória. 3. Ideia chave → não armazene KV, apenas recompute-o. 🧠 Como a inferência de LLM é tipicamente limitada pela largura de banda da memória, as unidades de computação estão frequentemente ociosas e subutilizadas. Portanto, podemos utilizar essa computação disponível sem qualquer sobrecarga! As tendências de hardware de GPU mostram que as capacidades de computação estão escalando muito mais rápido do que a largura de banda da memória. Assim, reduzir operações de memória em troca de mais computação pode ajudar a acelerar a inferência de LLM. O cache KV cresce linearmente com o comprimento da sequência e o tamanho do lote, incorrendo na maioria das operações de memória durante a inferência de LLM. Se pudermos trocar computação adicional para contornar o carregamento e armazenamento do cache KV, podemos acelerar a inferência! O XQuant explora essa tendência de hardware: 🧵 [1/7] Artigo: Trabalho conjunto com: @coleman_hooper1 @mjlee_official da @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang da @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami