バイアスと分散のトレードオフに、細かい情報が欠けています! 多くの機械学習エンジニアはそれを知りません。 例えば、ダミーデータセットに多項式回帰モデルをフィッティングすることを考えます。例えば、y=sin(x) + ノイズです。 画像の最初のプロットに示すように、次数(m)を上げるほど: - 訓練損失はゼロに下がる。 - テスト(または検証)損失は減少し、その後増加します。 しかし、次数(m)をさらに上げ続けると何が起こるかに注目してください。 ↳ テスト損失は再び減少します(第二のプロットに示されています) これは「ダブル・ディセント現象」と呼ばれ、ディープラーニングモデルでよく観察されます。 これは直感に反するもので、モデルの複雑さを増やすことで一般化性能が向上することを示しています。 私の知る限り、これはまだ未解決の問題です。なぜニューラルネットワークがこのような挙動を示すのかは完全には明らかではありません。 しかし、正則化に関するいくつかの理論も存在します。例えば、次のようなものがあります。 モデルが何らかの暗黙的正則化を適用している可能性もあります。その結果、適切な数のパラメータに正確に焦点を当てて一般化することができます。 実際、自分で試してみることもできます: - サイズnの小さなダミーデータセットを作成する。 - 次数mの多項式回帰を訓練し、1からnより大きい値まで行います。 - 各mのテスト損失と訓練損失をプロットする。 👉 次はあなたに話します:ダブル・ディセントって聞いたことはありますか?
こちらがイリヤ・スツケヴァーがレックス・フリードマンのポッドキャストでこの件について語っている正確なタイムスタンプです:
7.38K