Il trade-off bias-varianza ha un dettaglio mancante! Non molti ingegneri ML ne sono a conoscenza. Considera di adattare un modello di regressione polinomiale su un dataset fittizio, diciamo, y=sin(x) + rumore. Come mostrato nel primo grafico nell'immagine, man mano che aumentiamo il grado (m): - La perdita di addestramento scenderà a zero. - La perdita di test (o di validazione) diminuirà e poi aumenterà. Ma nota cosa succede man mano che continuiamo ad aumentare il grado (m): ↳ La perdita di test diminuisce di nuovo (mostrato nel secondo grafico) Questo è chiamato il “fenomeno del doppio calo” ed è comunemente osservato nei modelli di deep learning. È controintuitivo poiché mostra che aumentare la complessità del modello può migliorare le prestazioni di generalizzazione. Per quanto ne so, questa è ancora una questione aperta. Non è del tutto chiaro perché le reti neurali mostrino questo comportamento. Ci sono alcune teorie riguardo alla regolarizzazione, tuttavia, come questa: Potrebbe essere che il modello applichi una sorta di regolarizzazione implicita. Di conseguenza, può concentrarsi precisamente su un numero adeguato di parametri per la generalizzazione. Infatti, puoi provare tu stesso: - Crea un piccolo dataset fittizio di dimensione n. - Allena una regressione polinomiale di grado m, partendo da 1 fino a un valore maggiore di n. - Traccia la perdita di test e la perdita di addestramento per ogni m. 👉 A te la parola: Avevi già sentito parlare del doppio calo?
Ecco il timestamp esatto in cui Ilya Sutskever ne parla nel podcast di Lex Fridman:
6,05K