Qwen3.5は、深さの呪いに取り組んだ最初のフロンティア大型言語模型かもしれません。 層ごとの類似性は、Qwen3に比べてより深い層での冗長性がはるかに低いことが示されています。 私の推測ですが、9Bサイズという珍しいことを考えると、巧妙なレイヤーの再編成(剪定・交換・再利用)か正規化方式の変更かもしれません。@Alibaba_Qwen