É meio insano que essa atenção escassa esteja funcionando tão bem, eles só estão parcificando 50% das camadas MLA na base LongCat-Flash no meio do treinamento e obtêm resultados semelhantes ao modelo original a calibração é selecionar quais camadas de MLA elas elas dispersam. O LongCat-Flash tem essa estrutura de camada "estranha" (não de um jeito ruim) onde há 2 camadas de atenção em uma camada, não há menção de algum tratamento diferente para essas 2 camadas, então estou assumindo que eles aplicam o mesmo processo em ambas. A etapa de calibração é: saída = a_i · output_dense + (1 - a_i) · output_sparse E eles fazem descida gradiente em a_i (que é por camada de atenção). Se a_i for alta => essa camada precisa ser densa, se não, você pode esparsificá-la. Dessa forma, eles esparsificam 50% das camadas (infelizmente não temos a distribuição das camadas esparsificadas). Essa etapa de calibração tem um impacto enorme na longeval A atenção escassa também é muito simples, é fixa e não consciente do contexto como deepseek DSA/NSA ou MiniCPM InfiLLMv2, é uma janela deslizante com 8 blocos de 128 tokens (ou seja, tamanho da janela 1024), os primeiros 128 tokens e os últimos 896 tokens Estou curioso se modelos @Meituan_LongCat futuros vão usar isso na produção e se é robusto para RL!