#PaperADay 8 並列最適化における勾配平均を超えて:勾配一致フィルタリングによる堅牢性の向上 昨日の新聞の後、@FrancoisChauba1が推薦したものだ。 勾配一致フィルタリング(GAF)を提案し、独立した勾配の間に大きな余弦距離を持つ勾配を平均化せずフィルタリングする。つまり、トレーニング損失を助ける可能性のある計算勾配の中には、一般化に有害であり、使用するのではなく廃棄すべきであるという意味が示唆されています。 これはマルチGPU分散訓練におけるマイクロバッチの観点から提示されますが、同じ考え方は任意のトレーニングバッチのパーティションにも当てはまるはずです。 偶然にも似たようなことを試してみました。IIDリプレイバッファサンプルからグラデーションをクリッピングして、現在のオンライン体験サンプルの勾配と矛盾しないようにするのです。まだ良い結果は見られていませんが、まだいくつか試したい角度があります。 この理論を動機づける観察は、画像分類器を完全にランダムなノイズとランダムラベルで訓練すると、100%の学習精度を持ち、ランダムな確率検証精度のみを得て、明らかにトレーニングデータに過剰学習しているという点です。彼らは、この過学習モデルでミニバッチの勾配間のコサイン類似度を見ると、常に0.99以上、つまりほぼ直交的であることを指摘しています。直交勾配が過学習の信頼できる指標であるなら、直交勾配のミニバッチを省いて過学習を減らし、一般化を増やす方法が考えられます。 最も単純な2つのマイクロバッチの場合、コサイン類似度に基づいて両方を保持するか拒否するかのどちらかに帰着しますが、マイクロバッチが多い場合はすべてのマイクロバッチを最初のバッチと比較し、テストに合格したものを平均化することを提案しています。 バッチサイズに関するコメントの中には、#PaperADay 5の主張と矛盾しています。その論文はバッチサイズのスケーリング失敗はbeta2の調整が原因だと主張しますが、正当化よりも実証的なパフォーマンスの方が重要です。おそらく数日以内に、私たちの強化学習のコードベースで同様のことを試してみるつもりです。