Os parâmetros de embedding estão quentes novamente, artigo incrível do LongCat Flash, em conjunto com o Engram da DeepSeek! Diferenças com o Engram: -> não há embedding por camada (tentaram embedding por camada (PLE), mas não houve ganhos reais) -> fusão simples com média em vez do gate dinâmico consciente do contexto do Engram -> embeddings apenas na camada de entrada (em vez da injeção mais profunda da camada do Engram) Igual ao Engram: -> múltiplas sub-tabelas de hash para reduzir colisões - > lei de escala em formato de U semelhante para MoE vs alocação N-grama -> benéfico apenas em alta escarabidão (quando o MoE atinge retornos decrescentes) Outros achados importantes: -> modelos mais largos se beneficiam mais; Modelos mais profundos apresentam retornos decrescentes -> deve amplificar a saída de embedding (√D ou LayerNorm) para evitar afogamento pela primeira camada de atenção -> tamanho do vocabulário deve evitar múltiplos inteiros do vocabulário base (picos de colisão) -> ≤50% dos parâmetros para embeddings, caso contrário, o MoE puro vence -> boa sinergia com decodificação especulativa