Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
параметры встраивания снова в моде, потрясающая работа от LongCat Flash, совпадающая с Engram от DeepSeek!
различия с Engram:
-> нет встраивания на уровне слоя (они пробовали встраивание на уровне слоя (PLE), но без реальных улучшений)
-> простое усреднение вместо динамического контекстно-осведомленного управления Engram
-> встраивания только на входном слое (в отличие от более глубокого внедрения Engram)
так же, как и Engram:
-> несколько хэш-подтаблиц для уменьшения коллизий
-> аналогичный U-образный закон масштабирования для MoE против распределения N-грамм
-> полезно только при высокой разреженности (когда MoE достигает убывающей отдачи)
другие ключевые выводы:
-> более широкие модели приносят больше пользы; более глубокие модели показывают убывающую отдачу
-> необходимо усиливать выход встраивания (√D или LayerNorm), чтобы предотвратить затопление первым слоем внимания
-> размер словаря должен избегать целых кратных базовому словарю (пики коллизий)
-> ≤50% параметров на встраивания, иначе чистый MoE выигрывает
-> хорошая синергия с спекулятивным декодированием

Топ
Рейтинг
Избранное
