Pocas personas saben esto sobre la regularización L2: (Pista: NO es solo una técnica de regularización) La mayoría de los modelos pretenden usar la Regularización L2 para una sola cosa: ↳ Reducir el sobreajuste. Sin embargo, la regularización L2 es un gran remedio para la multicolinealidad. La multicolinealidad surge cuando: → Dos (o más) características están altamente correlacionadas, O, → Dos (o más) características pueden predecir otra característica. Para entender cómo la regularización L2 aborda la multicolinealidad, considera un conjunto de datos con dos características y una variable dependiente (y): → featureA → featureB → Altamente correlacionada con featureA. → y = alguna combinación lineal de featureA y featureB. Ignorando el término de intercepción, nuestro modelo lineal tendrá dos parámetros (θ₁, θ₂). El objetivo es encontrar esos parámetros específicos que minimicen la suma de cuadrados residuales (RSS). Entonces, ¿qué tal si hacemos lo siguiente ↓ 1. Vamos a trazar el valor de RSS para muchas combinaciones diferentes de los parámetros (θ₁, θ₂). Esto creará un gráfico 3D: → eje x → θ₁ → eje y → θ₂ → eje z → valor de RSS 2. Determinaremos visualmente la combinación (θ₁, θ₂) que minimiza el valor de RSS. Sin la penalización L2, obtenemos el primer gráfico en la imagen de abajo. ¿Notas algo? El gráfico 3D tiene un valle. Hay múltiples combinaciones de valores de parámetros (θ₁, θ₂) para los cuales RSS es mínimo. Con la penalización L2, obtenemos el segundo gráfico en la imagen de abajo. ¿Notas algo diferente esta vez? El uso de la regularización L2 eliminó el valle que vimos antes. Esto proporciona un mínimo global al error RSS. Y así es como la regularización L2 nos ayudó a eliminar la multicolinealidad. 👉 Te toca: ¿Sabías esto sobre la regularización L2?
De hecho, aquí es donde "regresión de cresta" también obtiene su nombre: Usar una penalización L2 elimina la CRESTA en la función de verosimilitud de un modelo lineal. Revisa esto👇
32,1K