Poucas pessoas sabem disso sobre a regularização L2: Não é apenas uma técnica de regularização. A maioria das pessoas usa regularização L2 para uma coisa: reduzir o overfitting. Mas há outra coisa que ele faz notavelmente bem. A regularização L2 é um ótimo remédio para multicolinearidade. A multicolinearidade ocorre quando duas ou mais características estão altamente correlacionadas, ou quando uma característica pode prever outra. Isso é um pesadelo para modelos lineares. Veja o porquê: Considere um conjunto de dados com duas características altamente correlacionadas (característica A e funcionalidadeB) e uma variável-alvo (y). Seu modelo linear tem dois parâmetros (θ₁, θ₂), e o objetivo é encontrar valores que minimizem a soma residual dos quadrados (RSS). Agora, vamos visualizar isso: Plote o valor RSS para muitas combinações de (θ₁, θ₂). Você obtém uma superfície 3D onde: → eixo x é θ₁ → eixo y é θ₂ → eixo z é o valor RSS Sem regularização L2, você tem um vale. Múltiplas combinações de parâmetros dão o mesmo RSS mínimo. A modelo não consegue decidir qual escolher. Essa instabilidade é a maldição da multicolinearidade. Com a regularização L2, o vale desaparece. Você tem um único mínimo global. O modelo agora tem uma resposta clara. Esse é o superpoder oculto da regularização L2 que a maioria dos tutoriais ignora. Não se trata apenas de evitar overfitting. Trata-se de dar estabilidade ao seu modelo quando as características estão correlacionadas. 👉 Com você: você sabia disso sobre a regularização L2?
Na verdade, é daí que "regressão de crista" também vem seu nome: Usar uma penalidade L2 elimina a RIDGE na função de verosimilhança de um modelo linear. Veja isso👇
1,43K