Pocas personas saben esto sobre la regularización de L2: NO es solo una técnica de regularización. La mayoría de la gente usa la regularización L2 para una cosa: reducir el sobreajuste. Pero hay algo más que hace sorprendentemente bien. La regularización de L2 es un gran remedio para la multicolinealidad. La multicolinealidad ocurre cuando dos o más características están altamente correlacionadas, o cuando una puede predecir otra. Esto es una pesadilla para los modelos lineales. He aquí por qué: Consideremos un conjunto de datos con dos características altamente correlacionadas (característica A y característicaB) y una variable objetivo (y). Tu modelo lineal tiene dos parámetros (θ₁, θ₂), y el objetivo es encontrar valores que minimicen la suma residual de cuadrados (RSS). Ahora, imaginemos esto: Grafica el valor RSS para muchas combinaciones de (θ₁, θ₂). Obtienes una superficie 3D donde: → eje x es θ₁ → eje y es θ₂ → eje z es el valor RSS Sin regularización de L2, obtienes un valle. Varias combinaciones de parámetros te dan el mismo RSS mínimo. El modelo no puede decidir cuál elegir. Esta inestabilidad es la maldición de la multicolinealidad. Con la regularización de L2, el valle desaparece. Tienes un mínimo global único. El modelo ahora tiene una respuesta clara. Este es el superpoder oculto de la regularización de nivel 2 que la mayoría de los tutoriales pasan por alto. No se trata solo de evitar el sobreajuste. Se trata de dar estabilidad a tu modelo cuando las características están correlacionadas. 👉 Te toca a ti: ¿Sabías esto sobre la regularización de L2?
De hecho, de ahí también proviene el nombre de "regresión de crestas": Usar una penalización L2 elimina la RIDGE en la función de verosimilitud de un modelo lineal. Mira esto👇
1.43K