Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Компроміс між зміщенням і дисперсією має одну деталь!
Мало хто з машинних інженерів про це знає.
Розглянемо приклад поліноміальної регресійної моделі на якийсь фіктивний набір даних, скажімо, y=sin(x) + шум.
Як показано на першому графіку на зображенні, коли ми збільшуємо ступінь (m):
- Втрати в тренуваннях знизяться до нуля.
- Втрати тесту (або валідації) зменшуватимуться, а потім збільшуються.
Але зверніть увагу, що відбувається, коли ми продовжуємо збільшувати ступінь (m):
↳ Втрати під час тесту знову зменшуються (показано на другому графіку)
Це називається «явищем подвійного спуску» і часто спостерігається в моделях глибокого навчання.
Це нелогічно, оскільки показує, що підвищення складності моделі може покращити ефективність узагальнення.
Наскільки мені відомо, це досі відкрите питання. Не зовсім зрозуміло, чому нейронні мережі проявляють таку поведінку.
Однак існують деякі теорії щодо регуляризації, наприклад, ця:
Можливо, модель застосовує якусь форму неявної регуляризації. Внаслідок цього він може точно зосередитися на відповідній кількості параметрів для узагальнення.
Насправді, ви можете спробувати це самі:
- Створити невеликий фіктивний набір даних розміром n.
- Обучити поліноміальну регресію ступеня m, починаючи від 1 до значення більшого за n.
- Побудувати втрати тесту та втрати тренування для кожного m.
👉 Слово вам: чи чули ви раніше про подвійний спуск?

Ось точна часова мітка, де Ілля Сутскевер говорить про це у подкасті Лекса Фрідмана:

7,38K
Найкращі
Рейтинг
Вибране

