Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
É meio insano que essa atenção escassa esteja funcionando tão bem, eles só estão parcificando 50% das camadas MLA na base LongCat-Flash no meio do treinamento e obtêm resultados semelhantes ao modelo original
a calibração é selecionar quais camadas de MLA elas elas dispersam. O LongCat-Flash tem essa estrutura de camada "estranha" (não de um jeito ruim) onde há 2 camadas de atenção em uma camada, não há menção de algum tratamento diferente para essas 2 camadas, então estou assumindo que eles aplicam o mesmo processo em ambas. A etapa de calibração é:
saída = a_i · output_dense + (1 - a_i) · output_sparse
E eles fazem descida gradiente em a_i (que é por camada de atenção). Se a_i for alta => essa camada precisa ser densa, se não, você pode esparsificá-la. Dessa forma, eles esparsificam 50% das camadas (infelizmente não temos a distribuição das camadas esparsificadas). Essa etapa de calibração tem um impacto enorme na longeval
A atenção escassa também é muito simples, é fixa e não consciente do contexto como deepseek DSA/NSA ou MiniCPM InfiLLMv2, é uma janela deslizante com 8 blocos de 128 tokens (ou seja, tamanho da janela 1024), os primeiros 128 tokens e os últimos 896 tokens
Estou curioso se modelos @Meituan_LongCat futuros vão usar isso na produção e se é robusto para RL!

Melhores
Classificação
Favoritos
