Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁

∿ Ropirito (0commoDTE)
Агенти @NousResearch | Розгорнуті @god @s8n @jesuschrist @thepope | Внесок у @aicceleratedao
1. Що змусило цих хлопців подумати, що це паперовий
2. Я припускаю, що кількість обмінів, які відбудуться з цим, жахлива

Aditya Tomar20 серп., 14:07
Чи можемо ми зламати стіну пам'яті для висновування LLM за допомогою рематеріалізації кешу KV?
🚨 Представляємо XQuant, який використовує недостатньо використовувані обчислювальні блоки для усунення вузького місця в пам'яті для висновків LLM!
• Економія пам'яті в 10–12,5 разів порівняно з FP16
• Майже нульова втрата точності
• Перевершує найсучасніше квантування🔥 KV
Ключові висновки:
1. Кеш KV = вузьке місце, → зростає лінійно з довжиною контексту + розміром партії.
2. Обчислення >> пам'яті → графічні процесори пропонують FLOP на порядки швидше, ніж пропускна здатність пам'яті.
3. Ключова ідея → не зберігати KV, а просто переобчислити його. 🧠
Оскільки висновок LLM зазвичай обмежений пропускною здатністю пам'яті, обчислювальні блоки часто простоюють і використовуються недостатньо. Отже, ми можемо використовувати цей доступний обчислення без будь-яких накладних витрат!
Тенденції апаратного забезпечення графічних процесорів показують, що обчислювальні можливості масштабуються набагато швидше, ніж пропускна здатність пам'яті. Таким чином, зменшення операцій з пам'яттю в обмін на більшу кількість обчислень може допомогти прискорити висновок LLM. Кеш KV зростає лінійно зі збільшенням довжини послідовності та розміру пакета, беручи на себе більшість операцій з пам'яттю під час висновування LLM. Якщо ми зможемо обміняти додаткові обчислення, щоб обійти завантаження та зберігання кешу KV, ми зможемо прискорити висновок!
XQuant використовує цю апаратну тенденцію: 🧵 [1/7]
Папір:
Спільна робота з: @coleman_hooper1 @mjlee_official від @FuriosaAI @HaochengXiUCB @rish2k1 Wonjun Kang від @FuriosaAI @lucamanolache0 Michael Mahoney @KurtKeutzer @amir__gholami

859
Найкращі
Рейтинг
Вибране
Актуальне ончейн
Популярні в X
Нещодавнє найкраще фінансування
Найбільш варте уваги