Мало хто знає про регуляризацію L2: (Підказка: це НЕ просто техніка регуляризації) Більшість моделей планують використовувати L2 Regularization лише для одного: ↳ Зменшити надмірне підгонювання. Однак регуляризація L2 — чудовий засіб для мультиколінеарності. Мультиколінеарність виникає, коли: → Дві (або більше) ознаки сильно корелюють між собою, АБО, → Дві (або більше) ознаки можуть передбачити іншу функцію. Щоб зрозуміти, як регуляризація L2 вирішує мультиколінеарність, розглянемо набір даних із двома ознаками та залежною змінною (y): → особливістьA → featureB → Сильно корелює з featureA. → y = деяка лінійна комбінація ознаки A і ознаки B. Ігноруючи член перехоплення, наша лінійна модель матиме два параметри (θ₁, θ₂). Мета — знайти ті конкретні параметри, які мінімізують залишкову суму квадратів (RSS). Отже, як щодо наступного ↓ 1. Ми будемо побудувати значення RSS для багатьох різних комбінацій параметрів (θ₁, θ₂). Це створить 3D-графік: → вісі x → θ₁ → вісь y → θ₂ → вісі z → значення RSS 2. Ми візуально визначимо комбінацію (θ₁, θ₂), яка мінімізує значення RSS. Без штрафу L2 ми отримуємо перший графік на зображенні нижче. Ти щось помічаєш? 3D-сюжет має долину. Існує кілька комбінацій значень параметрів (θ₁, θ₂), для яких RSS є мінімальним. З урахуванням штрафу L2 ми отримуємо другий графік на зображенні нижче. Ти помітив щось інше цього разу? Використання регуляризації L2 усунуло долину, яку ми бачили раніше. Це забезпечує глобальний мінімум для помилки RSS. І саме так регуляризація L2 допомогла нам усунути мультиколінеарність. 👉 Слово вам: чи знали ви про регуляризацію L2?
Насправді, саме звідси й походить назва «гребеньна регресія»: Використання штрафу L2 усуває RIDGE у функції правдоподібності лінійної моделі. Подивись на👇 це
32,12K