Мало кто знает об L2 регуляризации: Это НЕ просто техника регуляризации. Большинство людей используют L2 регуляризацию для одной цели: уменьшить переобучение. Но есть еще кое-что, с чем она справляется удивительно хорошо. L2 регуляризация является отличным средством от мультиколлинеарности. Мультиколлинеарность возникает, когда два или более признаков сильно коррелированы, или когда один признак может предсказать другой. Это настоящая проблема для линейных моделей. Вот почему: Рассмотрим набор данных с двумя сильно коррелированными признаками (featureA и featureB) и целевой переменной (y). Ваша линейная модель имеет два параметра (θ₁, θ₂), и цель состоит в том, чтобы найти значения, которые минимизируют сумму квадратов остатков (RSS). Теперь давайте визуализируем это: Постройте график значения RSS для множества комбинаций (θ₁, θ₂). Вы получите 3D поверхность, где: → ось x — это θ₁ → ось y — это θ₂ → ось z — это значение RSS Без L2 регуляризации вы получаете долину. Несколько комбинаций параметров дают вам одно и то же минимальное значение RSS. Модель не может решить, какую из них выбрать. Эта нестабильность — проклятие мультиколлинеарности. С L2 регуляризацией долина исчезает. Вы получаете единственное глобальное минимальное значение. Теперь у модели есть один четкий ответ. Это скрытая суперсила L2 регуляризации, которую большинство учебников пропускает. Дело не только в предотвращении переобучения. Дело в том, чтобы дать вашей модели стабильность, когда признаки коррелированы. 👉 Теперь ваша очередь: Знали ли вы это об L2 регуляризации?
На самом деле, именно отсюда и происходит название "регрессия с гребнем": Использование L2 штрафа устраняет RIDGE в функции правдоподобия линейной модели. Проверьте это👇
1,42K