もしトランスフォーマーのコアパーツをよりシンプルで強力なものに置き換えられたらどうでしょう? プリンストン大学、NYU、CMUの研究者たちがDerfを発表します。 標準的な「正規化」層を、ガウス誤差関数に基づくDerfという単純な要素ごとの関数に置き換えました。単に数値を滑らかに圧縮してトレーニングを安定させるだけです。 現在では、画像認識、AI画像生成、DNA配列モデリングにおいて、LayerNormおよび以前の最良の代替品であるDyTを上回る性能を発揮しています。 より強力な正規化フリートランス 論文: コード: 私たちの報告: