Poucas pessoas sabem disso sobre a regularização L2: (Dica: NÃO é apenas uma técnica de regularização) A maioria dos modelos pretende usar a regularização L2 para apenas uma coisa: ↳ Reduzir o sobreajuste. No entanto, a regularização L2 é um ótimo remédio para multicolinearidade. A multicolinearidade surge quando: → Duas (ou mais) características são altamente correlacionadas, OU, → Duas (ou mais) características podem prever outra característica. Para entender como a regularização L2 aborda a multicolinearidade, considere um conjunto de dados com duas características e uma variável dependente (y): → DestaqueA → funcionalidade B → Altamente correlacionada com a funcionalidade A. → y = alguma combinação linear de característicaA e característicaB. Ignorando o termo de interceptação, nosso modelo linear terá dois parâmetros (θ₁, θ₂). O objetivo é encontrar aqueles parâmetros específicos que minimizam a soma residual dos quadrados (RSS). Então, que tal fazermos o seguinte ↓ 1. Vamos plotar o valor RSS para muitas combinações diferentes de parâmetros (θ₁, θ₂). Isso vai criar um gráfico 3D: → eixo x → θ₁ → eixo y → θ₂ → Eixo z → valor RSS 2. Vamos determinar visualmente a combinação (θ₁, θ₂) que minimiza o valor RSS. Sem a penalidade L2, temos o primeiro gráfico na imagem abaixo. Você percebe alguma coisa? O gráfico 3D tem um vale. Existem múltiplas combinações de valores de parâmetros (θ₁, θ₂) para as quais RSS é mínimo. Com a penalidade L2, temos o segundo gráfico na imagem abaixo. Você percebeu algo diferente desta vez? Usar regularização L2 eliminou o vale que vimos antes. Isso fornece um mínimo global para o erro RSS. E foi assim que a regularização L2 nos ajudou a eliminar a multicolinearidade. 👉 Com você: você sabia disso sobre a regularização L2?
Na verdade, é daí que "regressão de crista" também vem seu nome: Usar uma penalidade L2 elimina a RIDGE na função de verosimilhança de um modelo linear. Veja isso👇
32,1K