è piuttosto pazzesco che questa attenzione sparsa funzioni così bene, stanno semplicemente sparsificando il 50% degli strati MLA nel modello LongCat-Flash a metà addestramento e ottengono risultati simili a quelli del modello originale la calibrazione seleziona quali strati MLA sparsificare. LongCat-Flash ha questa struttura di strati "strana" (non in senso negativo) in cui ci sono 2 strati di attenzione in uno strato, non c'è menzione di un trattamento diverso per quei 2 strati, quindi presumo stiano applicando lo stesso processo a entrambi. Il passo di calibrazione è: output = a_i · output_dense + (1 - a_i) · output_sparse e fanno discesa del gradiente su a_i (che è per strato di attenzione). se a_i è alto => questo strato deve essere denso, altrimenti puoi sparsificarlo. in questo modo sparsificano il 50% degli strati (purtroppo non abbiamo la distribuzione degli strati sparsificati). Questo passo di calibrazione ha un impatto pazzesco su longeval l'attenzione sparsa è molto semplice, è fissa e non consapevole del contesto come deepseek DSA/NSA o MiniCPM InfiLLMv2, è una finestra scorrevole con 8 blocchi di 128 token (quindi dimensione della finestra 1024), i primi 128 token e gli ultimi 896 token curioso se i futuri modelli @Meituan_LongCat utilizzeranno questo in produzione e se è robusto per RL!