Få vet dette om L2-regularisering: (Hint: det er IKKE bare en regulariseringsteknikk) De fleste modeller har til hensikt å bruke L2-regularisering til bare én ting: ↳ Reduser overfitting. Likevel er L2-regularisering en utmerket kur mot multikollinearitet. Multikollinearitet oppstår når: → To (eller flere) trekk er sterkt korrelert, ELLER, → To (eller flere) trekk kan forutsi et annet trekk. For å forstå hvordan L2-regularisering adresserer multikollinearitet, vurder et datasett med to egenskaper og en avhengig variabel (y): → featureA → featureB → Sterkt korrelert med featureA. → y = en lineær kombinasjon av egenskap A og egenskap B. Hvis vi ser bort fra interceptleddet, vil vår lineære modell ha to parametere (θ₁, θ₂). Målet er å finne de spesifikke parameterne som minimerer restsummen av kvadrater (RSS). Så, hva med at vi gjør følgende ↓ 1. Vi vil plotte RSS-verdien for mange forskjellige kombinasjoner av (θ₁, θ₂) parametere. Dette vil lage et 3D-plott: → x-akse → θ₁ → y-akse → θ₂ → z-akse → RSS-verdi 2. Vi vil visuelt bestemme (θ₁, θ₂) kombinasjonen som minimerer RSS-verdien. Uten L2-straffen får vi det første plottet i bildet nedenfor. Legger du merke til noe? 3D-plottet har en dal. Det finnes flere kombinasjoner av parameterverdier (θ₁, θ₂) hvor RSS er minimum. Med L2-straffen får vi det andre plottet i bildet under. Merker du noe annerledes denne gangen? Ved å bruke L2-regularisering ble dalen vi så tidligere eliminert. Dette gir et globalt minimum til RSS-feilen. Og slik hjalp L2-regularisering oss med å eliminere multikollinearitet. 👉 Over til deg: Visste du dette om L2-regularisering?
Faktisk er det her «rygg-regresjon» også har fått sitt navn fra: Ved å bruke en L2-straff elimineres RIDGE i sannsynlighetsfunksjonen til en lineær modell. Sjekk dette👇
32,1K