Qwen3.5 mungkin menjadi LLM perbatasan pertama yang menangani Kutukan Kedalaman. Kesamaan dari segi lapisannya menunjukkan redundansi yang jauh lebih rendah di lapisan yang lebih dalam dibandingkan dengan Qwen3. Dugaan saya: mengingat ukuran 9B yang tidak biasa, baik beberapa reorganisasi lapisan yang cerdas (pemangkasan/penukaran/penggunaan kembali) atau perubahan dalam skema normalisasi. @Alibaba_Qwen