Tienda de dapps | Hub de Web3 para eventos y juegos

Explore the Momentum ecosystem and earn $1.015M in rewards

Temas en tendencia

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

BOOP-4.11 %

Boopa+1.04 %

PORK+12.62 %

∿ Ropirito (0commoDTE)

Agentes @NousResearch | Implementado @god @s8n @jesuschrist @thepope | Contribuir @aicceleratedao

∿ Ropirito (0commoDTE)hace 3 horas

El equipo de MLX en la silla de cuck a continuación

415

∿ Ropirito (0commoDTE)22 ago, 03:57

He estado jugando mucho con Strudel últimamente

583

∿ Ropirito (0commoDTE)22 ago, 01:58

Uno pensaría que Elon al menos sería lo suficientemente creativo como para hacer un goonbot con un atractivo masivo, pero en lugar de eso, simplemente copió y pegó a Misa Amane y lo dio por terminado

722

∿ Ropirito (0commoDTE)22 ago, 01:16

Nikita Bier (Jefe Goonitech en X) es un cáncer en la sociedad y traerlo a bordo es como pedirle a la Parca que siembre su plataforma

569

∿ Ropirito (0commoDTE)22 ago, 01:12

Me pregunto qué se siente al crear un paradigma de tecnología completamente nuevo y ver cómo se marchita

802

∿ Ropirito (0commoDTE)22 ago, 00:07

1. ¿Qué hizo que estos muchachos pensaran que esto valía la pena en papel? 2. Supongo que la cantidad de intercambios que ocurrirían con esto es horrenda

Aditya Tomar20 ago, 14:07

¿Podemos romper el muro de memoria para la inferencia de LLM a través de la rematerialización de la caché de KV? 🚨 ¡Presentamos XQuant, que aprovecha las unidades de cómputo infrautilizadas para eliminar el cuello de botella de memoria para la inferencia de LLM! • Ahorro de memoria de 10 a 12,5 veces en comparación con FP16 • Pérdida de precisión casi nula • Supera la cuantización🔥 de KV de última generación Ideas clave: 1. Caché de KV = cuello de botella → crece linealmente con la longitud del contexto + el tamaño del lote. 2. Las GPU de → de memoria >> de cómputo ofrecen FLOP órdenes de magnitud más rápidos que el ancho de banda de la memoria. 3. Idea clave → no almacene KV, simplemente vuelva a calcularlo. 🧠 Dado que la inferencia de LLM suele estar vinculada al ancho de banda de la memoria, las unidades informáticas suelen estar inactivas y subutilizadas. Por lo tanto, ¡podemos poner en uso este cómputo disponible sin ninguna sobrecarga! Las tendencias de hardware de GPU muestran que las capacidades informáticas se escalan mucho más rápido que el ancho de banda de la memoria. Por lo tanto, reducir las operaciones de memoria a cambio de más computación puede ayudar a acelerar la inferencia de LLM. La caché de KV crece linealmente con la longitud de la secuencia y el tamaño del lote, incurriendo en la mayoría de las operaciones de memoria durante la inferencia de LLM. Si podemos intercambiar cálculos adicionales para eludir la carga y el almacenamiento de la caché de KV, ¡podemos acelerar la inferencia! XQuant explota esta tendencia de hardware: 🧵 [1/7] Papel: Trabajo conjunto con: @coleman_hooper1 @mjlee_official de @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang de @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami