Параметри вбудовування знову в захваті, неймовірна стаття від LongCat Flash, одночасно з Engram від DeepSeek! відмінності від Енграма: -> немає вбудовування на шар (вони пробували вбудовування на шар (PLE), але реальних приростів не було) -> просте усереднене злиття замість динамічного контекстно-орієнтованого гейтингу Енграма -> вкладення лише на вхідному рівні (на відміну від ін'єкції глибшого шару Engram) Те саме, що й Енграм: -> кілька хеш-підтаблиць для зменшення колізій -> подібний U-подібний закон масштабування для розподілу MoE проти N-грамового розподілу -> корисний лише при високій рідкості (коли MoE досягає зменшуючої віддачі) Інші ключові результати: -> ширші моделі виграють більше; Глибші моделі бачать зменшувальну віддачу -> повинен підсилювати вихід вкладення (√D або LayerNorm), щоб запобігти затопленню через шар першої уваги -> розмір словника повинен уникати цілих кратних базового словника (сплесків зіткнень) -> ≤50% параметрів у вкладення, інакше чистий MoE виграє -> гарна синергія зі спекулятивним декодуванням