параметры встраивания снова в моде, потрясающая работа от LongCat Flash, совпадающая с Engram от DeepSeek! различия с Engram: -> нет встраивания на уровне слоя (они пробовали встраивание на уровне слоя (PLE), но без реальных улучшений) -> простое усреднение вместо динамического контекстно-осведомленного управления Engram -> встраивания только на входном слое (в отличие от более глубокого внедрения Engram) так же, как и Engram: -> несколько хэш-подтаблиц для уменьшения коллизий -> аналогичный U-образный закон масштабирования для MoE против распределения N-грамм -> полезно только при высокой разреженности (когда MoE достигает убывающей отдачи) другие ключевые выводы: -> более широкие модели приносят больше пользы; более глубокие модели показывают убывающую отдачу -> необходимо усиливать выход встраивания (√D или LayerNorm), чтобы предотвратить затопление первым слоем внимания -> размер словаря должен избегать целых кратных базовому словарю (пики коллизий) -> ≤50% параметров на встраивания, иначе чистый MoE выигрывает -> хорошая синергия с спекулятивным декодированием