sangat gila bahwa perhatian jarang ini bekerja dengan sangat baik, mereka hanya menghemat 50% lapisan MLA di basis LongCat-Flash di tengah pelatihan dan mendapatkan hasil yang mirip dengan model aslinya kalibrasi adalah memilih lapisan MLA mana yang mereka jarang. LongCat-Flash memiliki struktur lapisan yang "aneh" (tidak dengan cara yang buruk) di mana ada 2 lapisan perhatian dalam satu lapisan, tidak disebutkan beberapa perlakuan yang berbeda untuk 2 lapisan tersebut jadi saya berasumsi mereka menerapkan proses yang sama untuk keduanya. Langkah kalibrasi adalah: keluaran = a_i · output_dense + (1 - a_i) · output_sparse dan mereka melakukan penurunan gradien pada a_i (yang per lapisan perhatian). Jika a_i tinggi => lapisan ini harus padat, jika tidak Anda dapat memangkatnya. dengan cara ini mereka menjaringkan 50% lapisan (sayangnya kami tidak memiliki distribusi lapisan yang jarang dipisahkan). Langkah kalibrasi ini berdampak gila pada longeval perhatian yang jarang juga sangat sederhana, tetap dan tidak sadar konteks seperti deepseek DSA/NSA atau MiniCPM InfiLLMv2, ini adalah jendela geser dengan 8 blok 128 token (jadi ukuran jendela 1024), 128 token pertama dan 896 token terakhir Penasaran apakah model @Meituan_LongCat masa depan akan menggunakan ini dalam PROD dan apakah itu kuat untuk RL!