Привіт! Новий спосіб навчання нейронних мереж: заснований на перебудові старих ідей ШІ, змішаних із відеоігровим «збереженням скаммінгу». Це спосіб змусити «поштовх», який може врятувати певні типи моделей (особливо малі чи екзотичні), коли вони застрягли. Сліпий. Еволюційної. Тиск.
Я називаю це «Фрустрація»: це як перезапустити збережену відеогру і знову спробувати битву з босом. Як? Візьміть епоху Останнього Відомого Добра (LKG), ТОДІ ви вбиваєте нейрон. Потім перенавчатися. На відміну від Dropout, шкода — це не тимчасовий шум під час партій. Ми ламаємо модель ПІСЛЯ того, як вона покращиться.
У Фрустрації (Персистентна [стохастична] абляція) пошкодження — це яма, яку потрібно уникати і заповнювати одночасно протягом наступної епохи. 2 стратегії: знищити всі ваги (наприклад, у прихованому шарі) для нейрона або лише вхідні (наприклад, для вихідного логіту).
Ми тестували за допомогою простих топологій мереж MLP, від мільйонів параметрів до сотень, каталогізуючи їхню «навчальність» за шириною (# нейронів) проти глибини (# шарів). PSA врятувала деякі моделі, які Dropout і Weight Decay не змогли: хаотичний режим (у синьому).
Це працює навіть у зламаних конструкціях, де проблема зникаючого градієнта робить зворотне поширення марним. (А якщо немає пропускних з'єднань, це не так багато шарів!) Також можна наносити урон і тренувати кілька пошкоджених LKG одночасно на різних GPU.
Стаття відображає перший доказ концепції, і так, вся ідея має *багато* обмежень. Особливо враховуючи, наскільки марнотратний трещотка або що він був у наборі даних MNIST (іграшка), а не на ImageNet. Але хороші новини! Ранні тести ResMLP показують обнадійливі результати!
Ми намагалися бути ретельними. Ми протестували 98 топологій, багато з яких мали конфігурації відповідності параметрів (різні розміри, однакова кількість параметрів). Ми виміряли 3 різні методи PSA проти 3 контрольних груп, по 10 досліджень кожна. Всього 5 880 випробувань. Відтворюється.
Навіть у ситуаціях, коли проблема зникаючого градієнта мала б зробити тренування неможливим (наприклад, у простому MLP 18x18), PSA могла тренуватися, атакуючи вихідні логіти на MNIST. Не вірите мені? Спробуйте і подивіться!
Тут купа класних моментів «ага». Майте на увазі, що жодна з основних ідей не є новою. Ми просто організували їх по-новому, щоб спробувати щось, що реально можливо лише зараз, коли GPU стали такими потужними.
Майбутня робота: • Відтворення оригінальних тестів на ResMLP, CNN та Transformers (ResMLP виправляє VGP, але для патологічних топологій, здається, PSA все ще допомагає) • Спробувати на ImageNet < — дорого, але це справжній доказ, який нам потрібен.
Спостережень: • Знищення одного й того ж вихідного логіту послідовно створює «антиекспертні» моделі, і якщо подивитися на їхні матриці плутанини, можна побачити дислексію в дії (вбивство 2 — і класифікація перевищується до 5, 7 і 8) • Нам не потрібно залишатися на стохастичних атаках
Чому це цінно? • Якщо це працює на більших наборах даних і сучасних архітектурах моделей, я сподіваюся, що це може стати цінним інструментом для створення малих мовних моделей (SLM).
GitHub з папером і кодом тут:
1,54K