Poucas pessoas sabem disto sobre a regularização L2: Não é apenas uma técnica de regularização. A maioria das pessoas usa a regularização L2 para uma coisa: reduzir o overfitting. Mas há algo mais que ela faz notavelmente bem. A regularização L2 é um ótimo remédio para a multicolinearidade. A multicolinearidade acontece quando duas ou mais características estão altamente correlacionadas, ou quando uma característica pode prever outra. Isso é um pesadelo para modelos lineares. Aqui está o porquê: Considere um conjunto de dados com duas características altamente correlacionadas (featureA e featureB) e uma variável alvo (y). Seu modelo linear tem dois parâmetros (θ₁, θ₂), e o objetivo é encontrar valores que minimizem a soma dos quadrados dos resíduos (RSS). Agora, vamos visualizar isto: Plote o valor do RSS para muitas combinações de (θ₁, θ₂). Você obtém uma superfície 3D onde: → o eixo x é θ₁ → o eixo y é θ₂ → o eixo z é o valor do RSS Sem a regularização L2, você obtém um vale. Múltiplas combinações de parâmetros dão o mesmo RSS mínimo. O modelo não consegue decidir qual escolher. Essa instabilidade é a maldição da multicolinearidade. Com a regularização L2, o vale desaparece. Você obtém um único mínimo global. O modelo agora tem uma resposta clara. Esse é o superpoder oculto da regularização L2 que a maioria dos tutoriais ignora. Não se trata apenas de prevenir o overfitting. Trata-se de dar estabilidade ao seu modelo quando as características estão correlacionadas. 👉 Agora é a sua vez: Você sabia disso sobre a regularização L2?
Na verdade, é aqui que a "regressão ridge" também recebe seu nome: Usar uma penalização L2 elimina o RIDGE na função de verossimilhança de um modelo linear. Verifique isto👇
1,67K