Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Akshay 🚀
Спрощення LLM, AI агентів, RAG та машинного навчання для вас! • Співзасновник @dailydoseofds_• BITS Pilani • 3 патенти • колишній інженер штучного інтелекту @ LightningAI
Мало хто знає про регуляризацію L2:
Це НЕ просто техніка регуляризації.
Більшість людей використовують регуляризацію L2 для одного: зменшити перенаслідування. Але є ще дещо, що він робить надзвичайно добре.
Регуляризація L2 — чудовий засіб для мультиколінеарності.
Мультиколінеарність виникає, коли дві або більше ознак сильно корелюють, або коли одна ознака може передбачити іншу. Це справжній кошмар для лінійних моделей.
Ось чому:
Розглянемо набір даних із двома сильно корельованими ознаками (featureA та featureB) та цільовою змінною (y).
Ваша лінійна модель має два параметри (θ₁, θ₂), і мета — знайти значення, що мінімізують залишкову суму квадратів (RSS).
Тепер візуалізуємо це:
Побудуйте значення RSS для багатьох комбінацій (θ₁, θ₂). Ви отримуєте 3D-поверхню, де:
→ вісь x дорівнює θ₁
→ вісь y дорівнює θ₂
→ вісі z — це значення RSS
Без регуляризації L2 ви отримуєте долину.
Комбінації кількох параметрів дають однаковий мінімальний RSS. Модель не може вирішити, який вибрати. Ця нестабільність є прокляттям мультиколінеарності.
З регуляризацією L2 долина зникає.
Ви отримуєте один глобальний мінімум. Модель тепер має одну чітку відповідь.
Це прихована суперсила регуляризації рівня 2, яку більшість навчальних матеріалів пропускають. Йдеться не лише про запобігання перевантаженню. Йдеться про забезпечення стабільності моделі, коли функції корелюють.
👉 Слово вам: чи знали ви про регуляризацію L2?

1,06K
DeepSeek щойно виправив одну з найдавніших проблем ШІ.
(використання алгоритму, якому 60 років)
Ось історія:
Коли глибоке навчання набуло популярності, дослідники зіткнулися зі стіною. Не можна просто нескінченно складати шари. Сигнали або вибухають, або зникають. Навчання глибоких мереж було майже неможливим.
ResNets вирішила це питання у 2016 році за допомогою залишкових підключень:
вихід = вхід + те, що навчився шар
Цей «+» створює прямий шлях для отримання інформації. Ось чому ми тепер можемо навчати мережі з сотнями шарів.
Нещодавно дослідники запитали: а що, якби у нас було кілька автомагістралей замість одного?
Hyper-Connections (HC) розширив цю односмугу до 4 паралельних смуг із навчальними матрицями, які змішують інформацію між потоками.
Зростання продуктивності було реальним. Але була проблема:
Ці змішувальні матриці складаються на шарах. Крихітне 5% підсилення на шар стає 18x після 60 шарів. У статті вимірювали ампліфікацію, що досягала 3000x. Колапс тренувань.
Звичайні рішення? Градієнтне обрізання. Обережна ініціалізація. Сподіваюся, що все вийде.
Це хакери. А хаки не масштабуються.
DeepSeek повернулася до перших принципів. Яке математичне обмеження гарантує стабільність?
Відповідь лежала в статті 1967 року: алгоритм Сінкгорна-Кноппа.
Вона змушує змішування матриць бути «подвійно стохастичною», коли рядки та стовпці дорівнюють 1.
Результати:
- 3000x нестабільність зменшена до 1,6x
- Стабільність, гарантована математикою, а не удачою
- Лише 6,7% додаткових навчальних витрат
Жодних хитрощів. Просто математика.
Я поділився посиланням на статтю в наступному твіті.

264
Хаки не масштабуються. Математика — так.
DeepSeek це довела.
Вони випустили хіт на завершення 2025 року.
"mHC: Гіперзв'язки, обмежені в многообразі."
Ось чому це важливо:
Коли глибоке навчання набуло популярності, дослідники зіткнулися зі стіною. Не можна просто безкінечно складати шари; Сигнали або вибухають, або зникають. Навчання глибоких мереж було майже неможливим.
ResNets вирішила це питання у 2016 році за допомогою залишкових підключень:
вихід = вхід + те, що навчився шар
Цей «+» створює прямий шлях для отримання інформації. Ось чому ми тепер можемо навчати мережі з сотнями шарів.
Нещодавно дослідники запитали: А що, якби у нас було кілька шосе замість одного?
Hyper-Connections (HC) розширив цю односмугу до 4 паралельних смуг із навчальними матрицями, які змішують інформацію між потоками.
Зростання продуктивності було реальним. Але була проблема:
Ці змішувальні матриці складаються на шарах. Крихітне 5% підсилення на шар стає 18x після 60 шарів. У статті вимірювали ампліфікацію до 3000x, що призвело до колапсів тренувань.
Звичайні рішення: градієнтне обрізання, обережна ініціалізація і сподівання, що все вийде.
DeepSeek повернувся до перших принципів: яке математичне обмеження гарантує стабільність?
Відповідь ховалася в алгоритмі, якому 59 років (Сінкгорн-Кнопп, 1967)
Це змушує змішування матриці бути подвійно стохастичними, тобто рядки та стовпці дорівнюють 1.
Результати:
- 3000x нестабільність → 1,6x
- Стабільність, гарантована математикою, а не удачою
- Лише 6,7% додаткових навчальних витрат
Жодних хитрощів. Просто математика.
Якщо хочете прочитати більше, я поділився посиланням на статтю в наступному твіті.

166
Найкращі
Рейтинг
Вибране
