os parâmetros de embedding estão em alta novamente, artigo incrível do LongCat Flash, simultâneo com o Engram do DeepSeek! diferenças com o Engram: -> sem embedding por camada (eles tentaram embedding por camada (PLE) mas sem ganhos reais) -> fusão de média simples em vez da dinâmica de gating consciente do contexto do Engram -> embeddings apenas na camada de entrada (vs injeção em camadas mais profundas do Engram) igual ao Engram: -> múltiplas sub-tabelas de hash para reduzir colisões -> lei de escalonamento em forma de U semelhante para MoE vs alocação N-gram -> apenas benéfico em alta esparsidade (quando MoE atinge retornos decrescentes) outras descobertas chave: -> modelos mais largos se beneficiam mais; modelos mais profundos veem retornos decrescentes -> é necessário amplificar a saída de embedding (√D ou LayerNorm) para evitar ser submerso pela primeira camada de atenção -> o tamanho do vocabulário deve evitar múltiplos inteiros do vocabulário base (picos de colisão) -> ≤50% dos parâmetros para embeddings, caso contrário, o MoE puro vence -> boa sinergia com decodificação especulativa