Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
os parâmetros de embedding estão em alta novamente, artigo incrível do LongCat Flash, simultâneo com o Engram do DeepSeek!
diferenças com o Engram:
-> sem embedding por camada (eles tentaram embedding por camada (PLE) mas sem ganhos reais)
-> fusão de média simples em vez da dinâmica de gating consciente do contexto do Engram
-> embeddings apenas na camada de entrada (vs injeção em camadas mais profundas do Engram)
igual ao Engram:
-> múltiplas sub-tabelas de hash para reduzir colisões
-> lei de escalonamento em forma de U semelhante para MoE vs alocação N-gram
-> apenas benéfico em alta esparsidade (quando MoE atinge retornos decrescentes)
outras descobertas chave:
-> modelos mais largos se beneficiam mais; modelos mais profundos veem retornos decrescentes
-> é necessário amplificar a saída de embedding (√D ou LayerNorm) para evitar ser submerso pela primeira camada de atenção
-> o tamanho do vocabulário deve evitar múltiplos inteiros do vocabulário base (picos de colisão)
-> ≤50% dos parâmetros para embeddings, caso contrário, o MoE puro vence
-> boa sinergia com decodificação especulativa

Top
Classificação
Favoritos
