Pocas personas saben esto sobre la regularización de L2: (Pista: NO es solo una técnica de regularización) La mayoría de los modelos pretenden usar regularización L2 para una sola cosa: ↳ Reducir el sobreajuste. Sin embargo, la regularización L2 es un gran remedio para la multicolinealidad. La multicolinealidad surge cuando: → Dos (o más) características están altamente correlacionadas, O, → Dos (o más) características pueden predecir otra característica. Para entender cómo la regularización L2 aborda la multicolinealidad, consideremos un conjunto de datos con dos características y una variable dependiente (y): → característica A → característica B → Altamente correlacionada con la característica A. → y = alguna combinación lineal de la característicaA y la característicaB. Ignorando el término de intercepción, nuestro modelo lineal tendrá dos parámetros (θ₁, θ₂). El objetivo es encontrar aquellos parámetros específicos que minimizan la suma residual de cuadrados (RSS). Así que, ¿qué tal si hacemos lo siguiente ↓ 1. Representaremos el valor RSS para muchas combinaciones diferentes de parámetros (θ₁, θ₂). Esto creará un gráfico 3D: → eje x → θ₁ → eje y → θ₂ → eje z → valor RSS 2. Determinaremos visualmente la combinación (θ₁, θ₂) que minimiza el valor RSS. Sin la penalización de L2, obtenemos el primer gráfico en la imagen de abajo. ¿Notas algo? La gráfica en 3D tiene un valle. Existen múltiples combinaciones de valores de parámetros (θ₁, θ₂) para las cuales RSS es el mínimo. Con la penalización de L2, obtenemos el segundo gráfico en la imagen de abajo. ¿Notas algo diferente esta vez? Usar regularización L2 eliminó el valle que vimos antes. Esto proporciona un mínimo global al error RSS. Y así es como la regularización L2 nos ayudó a eliminar la multicolinealidad. 👉 Te toca a ti: ¿Sabías esto sobre la regularización de L2?
De hecho, de ahí también proviene el nombre de "regresión de crestas": Usar una penalización L2 elimina la RIDGE en la función de verosimilitud de un modelo lineal. Mira esto👇
32.09K