Der Bias-Varianz-Tradeoff hat ein fehlendes Detail! Nicht viele ML-Ingenieure wissen darüber Bescheid. Betrachten Sie das Anpassen eines polynomialen Regressionsmodells an einen Dummy-Datensatz, sagen wir, y=sin(x) + Rauschen. Wie im ersten Diagramm in der Abbildung gezeigt, sinkt mit zunehmendem Grad (m): - Der Trainingsverlust geht gegen null. - Der Test- (oder Validierungs-) Verlust sinkt und steigt dann wieder. Aber beachten Sie, was passiert, wenn wir den Grad (m) weiter erhöhen: ↳ Der Testverlust sinkt erneut (im zweiten Diagramm gezeigt) Dies wird als das „Double Descent-Phänomen“ bezeichnet und wird häufig bei Deep-Learning-Modellen beobachtet. Es ist kontraintuitiv, da es zeigt, dass eine Erhöhung der Modellkomplexität die Generalisierungsleistung verbessern kann. Soweit ich weiß, ist dies immer noch eine offene Frage. Es ist nicht ganz klar, warum neuronale Netze dieses Verhalten zeigen. Es gibt einige Theorien zur Regularisierung, wie diese hier: Es könnte sein, dass das Modell eine Art implizite Regularisierung anwendet. Infolgedessen kann es sich genau auf eine geeignete Anzahl von Parametern für die Generalisierung konzentrieren. Tatsächlich können Sie es selbst ausprobieren: - Erstellen Sie einen kleinen Dummy-Datensatz der Größe n. - Trainieren Sie eine polynomiale Regression des Grades m, beginnend bei 1 bis zu einem Wert größer als n. - Zeichnen Sie den Testverlust und den Trainingsverlust für jedes m auf. 👉 Überlassen wir es Ihnen: Hatten Sie schon einmal von Double Descent gehört?
Hier ist der genaue Zeitstempel, an dem Ilya Sutskever darüber im Podcast von Lex Fridman spricht:
6,05K