Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

∿ Ropirito (0commoDTE)
Агенты @NousResearch | Развернутые @god @s8n @jesuschrist @thepope | Участие в @aicceleratedao
1. Что заставило этих парней думать, что это стоит бумаги
2. Я предполагаю, что количество обменов, которые произойдут с этим, ужасно

Aditya Tomar20 авг., 14:07
Можем ли мы преодолеть стену памяти для вывода LLM через рематериализацию кэша KV?
🚨 Представляем XQuant, который использует недоиспользуемые вычислительные единицы для устранения узкого места памяти при выводе LLM!
• Экономия памяти 10–12.5x по сравнению с FP16
• Почти нулевая потеря точности
• Обходит передовые технологии квантования KV🔥
Ключевые идеи:
1. Кэш KV = узкое место → растет линейно с длиной контекста + размером пакета.
2. Вычисления >> память → GPU предлагают FLOPs на порядки быстрее, чем пропускная способность памяти.
3. Ключевая идея → не хранить KV, а просто пересчитывать его. 🧠
Поскольку вывод LLM обычно ограничен пропускной способностью памяти, вычислительные единицы часто простаивают и недоиспользуются. Поэтому мы можем использовать эти доступные вычисления без каких-либо накладных расходов!
Тенденции аппаратного обеспечения GPU показывают, что вычислительные возможности масштабируются гораздо быстрее, чем пропускная способность памяти. Таким образом, сокращение операций с памятью в обмен на большее количество вычислений может помочь ускорить вывод LLM. Кэш KV растет линейно с длиной последовательности и размером пакета, что приводит к большинству операций с памятью во время вывода LLM. Если мы можем обменять дополнительные вычисления, чтобы избежать загрузки и хранения кэша KV, мы можем ускорить вывод!
XQuant использует эту аппаратную тенденцию: 🧵 [1/7]
Статья:
Совместная работа с: @coleman_hooper1 @mjlee_official от @FuriosaAI @HaochengXiUCB @rish2k1 Вонжун Кан от @FuriosaAI @lucamanolache0 Майкл Махони @KurtKeutzer @amir__gholami

848
Топ
Рейтинг
Избранное
В тренде ончейн
В тренде в Х
Самые инвестируемые
Наиболее известные