Vinouman ja varianssin vaihtokaupassa puuttuu yksityiskohta! Harva koneoppimisen insinööri tietää siitä. Harkitse polynomiregressiomallin sovittamista johonkin dummy-aineistoon, esimerkiksi y=sin(x) + noise. Kuten kuvan ensimmäisessä kuvassa näkyy, kun astetta (m) kasvatetaan: - Harjoitusmenetys laskee nollaan. - Testihäviö (tai validointi) vähenee ja sitten kasvaa. Mutta huomaa, mitä tapahtuu, kun jatkamme asteen (m) kasvattamista: ↳ Testihäviö vähenee jälleen (näkyy toisessa kuvassa) Tätä kutsutaan "kaksoislaskeutumisilmiöksi" ja sitä havaitaan yleisesti syväoppimismalleissa. Se on vastoin intuitiota, koska se osoittaa, että mallin monimutkaisuuden lisääminen voi parantaa yleistyksen suorituskykyä. Parhaan tietoni mukaan tämä on edelleen avoin kysymys. Ei ole täysin selvää, miksi neuroverkot käyttäytyvät näin. On kuitenkin olemassa joitakin teorioita regularisaatiosta, kuten tämä: Voi olla, että malli soveltaa jonkinlaista implisiittistä regularisointia. Tämän seurauksena se voi tarkasti keskittyä sopivaan määrään parametreja yleistettäväksi. Itse asiassa voit kokeilla itse: - Luo pieni dummy-aineisto, jonka koko on n. - Harjoitella polynomiregressio, jonka aste on m, alkaen arvosta 1 arvoon, joka on suurempi kuin n. - Piirrä testihäviö ja harjoitusmenetys jokaiselle m:lle. 👉 Sinulle: Oletko kuullut kaksoislaskusta aiemmin?
Tässä on tarkka aikaleima, jossa Ilya Sutskever puhuu siitä Lex Fridmanin podcastissa:
10,21K