Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Os parâmetros de embedding estão quentes novamente, artigo incrível do LongCat Flash, em conjunto com o Engram da DeepSeek!
Diferenças com o Engram:
-> não há embedding por camada (tentaram embedding por camada (PLE), mas não houve ganhos reais)
-> fusão simples com média em vez do gate dinâmico consciente do contexto do Engram
-> embeddings apenas na camada de entrada (em vez da injeção mais profunda da camada do Engram)
Igual ao Engram:
-> múltiplas sub-tabelas de hash para reduzir colisões
- > lei de escala em formato de U semelhante para MoE vs alocação N-grama
-> benéfico apenas em alta escarabidão (quando o MoE atinge retornos decrescentes)
Outros achados importantes:
-> modelos mais largos se beneficiam mais; Modelos mais profundos apresentam retornos decrescentes
-> deve amplificar a saída de embedding (√D ou LayerNorm) para evitar afogamento pela primeira camada de atenção
-> tamanho do vocabulário deve evitar múltiplos inteiros do vocabulário base (picos de colisão)
-> ≤50% dos parâmetros para embeddings, caso contrário, o MoE puro vence
-> boa sinergia com decodificação especulativa

Melhores
Classificação
Favoritos
