E destul de incredibil că această atenție slabă funcționează atât de bine, doar că parcizează 50% din straturile MLA din LongCat-Flash la mijlocul antrenamentului și obțin rezultate similare cu modelul original calibrarea constă în selectarea straturilor MLA pe care le sparsionează. LongCat-Flash are această structură de straturi "ciudată" (nu într-un mod rău), unde sunt 2 straturi de atenție într-un singur strat, nu există nicio mențiune despre un tratament diferit pentru cele două straturi, așa că presupun că aplică același proces ambelor. Pasul de calibrare este: ieșire = a_i · output_dense + (1 - a_i) · output_sparse Și fac gradient descendent pe a_i (care este pe fiecare strat de atenție). Dacă a_i este mare => acest strat trebuie să fie dens, dacă nu, îl poți sparsi. Astfel, ei sparsifică 50% din straturi (din păcate nu avem distribuția straturilor sparsificate). Această etapă de calibrare are un impact incredibil asupra longevralului Atenția rară este și ea foarte simplă, este fixă și nu conștientă de context ca deepseek DSA/NSA sau MiniCPM InfiLLMv2, este o fereastră glisantă cu 8 blocuri de 128 tokenuri (deci dimensiunea ferestrei 1024), primele 128 de tokenuri și ultimele 896 token-uri Sunt curios dacă modelele @Meituan_LongCat viitoare vor folosi asta în producție și dacă este robust pentru RL!