Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Avveiningen mellom skjevhet og varians mangler en detalj!
Ikke mange ML-ingeniører kjenner til det.
Vurder å tilpasse en polynomregresjonsmodell på et dummy-datasett, for eksempel y=sin(x) + støy.
Som vist i det første plottet i bildet, når vi øker graden (m):
- Treningstapet vil gå ned til null.
- Test- (eller validerings-) tapet vil avta og deretter øke.
Men legg merke til hva som skjer når vi fortsetter å øke graden (m):
↳ Testtapet avtar igjen (vist i det andre plottet)
Dette kalles «double descent-fenomenet» og det observeres ofte i dyp læringsmodeller.
Det er motintuitivt siden det viser at økt modellkompleksitet kan forbedre generaliseringsytelsen.
Så vidt jeg vet, er dette fortsatt et åpent spørsmål. Det er ikke helt klart hvorfor nevrale nettverk viser denne atferden.
Det finnes imidlertid noen teorier rundt regularisering, som denne:
Det kan være at modellen anvender en slags implisitt regularisering. Som et resultat kan den presist fokusere på et passende antall parametere for generalisering.
Faktisk kan du prøve det selv:
- Lag et lite dummy-datasett av størrelse n.
- Tren en polynomregresjon av grad m, fra 1 til en verdi større enn n.
- Plott testtapet og treningstapet for hver m.
👉 Over til deg: Hadde du hørt om dobbel nedstigning før?

Her er det eksakte tidsstempelet hvor Ilya Sutskever snakker om det på Lex Fridmans podkast:

6,05K
Topp
Rangering
Favoritter

