Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Параметри вбудовування знову в захваті, неймовірна стаття від LongCat Flash, одночасно з Engram від DeepSeek!
відмінності від Енграма:
-> немає вбудовування на шар (вони пробували вбудовування на шар (PLE), але реальних приростів не було)
-> просте усереднене злиття замість динамічного контекстно-орієнтованого гейтингу Енграма
-> вкладення лише на вхідному рівні (на відміну від ін'єкції глибшого шару Engram)
Те саме, що й Енграм:
-> кілька хеш-підтаблиць для зменшення колізій
-> подібний U-подібний закон масштабування для розподілу MoE проти N-грамового розподілу
-> корисний лише при високій рідкості (коли MoE досягає зменшуючої віддачі)
Інші ключові результати:
-> ширші моделі виграють більше; Глибші моделі бачать зменшувальну віддачу
-> повинен підсилювати вихід вкладення (√D або LayerNorm), щоб запобігти затопленню через шар першої уваги
-> розмір словника повинен уникати цілих кратних базового словника (сплесків зіткнень)
-> ≤50% параметрів у вкладення, інакше чистий MoE виграє
-> гарна синергія зі спекулятивним декодуванням

Найкращі
Рейтинг
Вибране
