Kimiチームからのバンガーレポート:注意の残留 残留接続により、深部トランスフォーマーは訓練可能になりました。 しかし同時に、制御不能な隠れた状態の成長を深みのあるものにします。 この研究はよりクリーンな代替案を提案しています。 このプログラムでは、固定残留蓄積を前の層出力に対してソフトマックス注意に置き換える注意残差を導入します。 すべてを盲目的に総和するのではなく、各層は実際に必要な以前の表現を選択的に取得します。 これを大規模に実用的に保つために、階層をブロックサマリーに圧縮するブロックワイズバージョンを追加し、システムのオーバーヘッドを最小限に抑えてほとんどの利点を回復します。 なぜそれが重要なのでしょうか? 残留経路は、情報の深さ移動を制御しているにもかかわらず、現代のLLMでもほとんど変わっていません。 この論文は、混合内容依存性を設定することでスケーリング法則が向上し、1.25倍の計算で訓練されたベースラインにマッチし、GPQA-Diamondを+7.5、HumanEvalを+3.1に強化しつつ、推論オーバーヘッドを2%未満に抑えることを示しています。 論文: 私たちのアカデミーで効果的なAIエージェントの構築方法を学びましょう: