Немногие знают это о L2 регуляризации: (Подсказка: это НЕ просто техника регуляризации) Большинство моделей намерены использовать L2 регуляризацию только для одной цели: ↳ Снизить переобучение. Однако L2 регуляризация является отличным средством для борьбы с мультиколлинеарностью. Мультиколлинеарность возникает, когда: → Две (или более) характеристики сильно коррелированы, ИЛИ, → Две (или более) характеристики могут предсказать другую характеристику. Чтобы понять, как L2 регуляризация решает проблему мультиколлинеарности, рассмотрим набор данных с двумя характеристиками и зависимой переменной (y): → featureA → featureB → Сильно коррелирована с featureA. → y = некоторая линейная комбинация featureA и featureB. Игнорируя свободный член, наша линейная модель будет иметь два параметра (θ₁, θ₂). Цель состоит в том, чтобы найти те конкретные параметры, которые минимизируют остаточную сумму квадратов (RSS). Итак, как насчет того, чтобы сделать следующее ↓ 1. Мы построим график значения RSS для множества различных комбинаций параметров (θ₁, θ₂). Это создаст 3D график: → ось x → θ₁ → ось y → θ₂ → ось z → значение RSS 2. Мы визуально определим комбинацию (θ₁, θ₂), которая минимизирует значение RSS. Без L2 штрафа мы получаем первый график на изображении ниже. Вы что-то замечаете? 3D график имеет долину. Существует множество комбинаций значений параметров (θ₁, θ₂), для которых RSS минимально. С L2 штрафом мы получаем второй график на изображении ниже. Вы замечаете что-то другое на этот раз? Использование L2 регуляризации устранило долину, которую мы видели ранее. Это обеспечивает глобальный минимум для ошибки RSS. И вот как L2 регуляризация помогла нам устранить мультиколлинеарность. 👉 Теперь ваша очередь: Знали ли вы это о L2 регуляризации?
На самом деле, именно отсюда и происходит название "регрессия с гребнем": Использование L2 штрафа устраняет RIDGE в функции правдоподобия линейной модели. Проверьте это👇
32,1K