Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#PaperADay 8
Поза усередненням градієнтів у паралельній оптимізації: покращена стійкість за допомогою фільтрації узгодженості градієнтів
Рекомендовано @FrancoisChauba1 після вчорашньої статті.
Пропонує фільтрацію за узгодженням градієнтів (GAF), коли незалежні градієнти з великими косинусними відстанями між ними фільтруються замість усереднення. Це означає, що деякі розраховані градієнти, які можуть допомогти з втратою тренувань, активно шкодять узагальненням і їх слід відкидати, а не використовувати.
Це подається у вигляді мікропакетів у багатофункціональному розподіленому навчанні, але така ж ідея має застосовуватися і до розділів будь-якої навчальної партії.
Випадково я пробував щось подібне — обрізати градієнти з IID replay buffer samples, щоб вони не суперечили градієнту з поточного онлайн-досвіду. Поки що позитивних результатів немає, але у мене є ще кілька варіантів для спроби.
Спостереження, яке мотивує цю теорію, полягає в тому, що якщо навчити класифікатор зображень на повністю випадковому шумі та випадкових мітках, він матиме 100% точність навчання і лише випадкову точність валідації, що явно перевищує тренувальні дані. Вони зазначають, що якщо подивитися на косинусну схожість між градієнтами мінібатчів у цій моделі переналаштування, вона завжди перевищує 0,99, або фактично ортогональна. Якщо ортогональні градієнти є надійною ознакою перенагону, можливо, варто пропустити мінбатчі з ортогональними градієнтами і зменшити перенаслідування / збільшити узагальнення.
У найпростішому випадку двох мікропартій це зводиться до збереження або відхилення обох на основі косинусної схожості, але при більшій кількості мікропартій пропонують порівнювати всі мікропартії з першою і усереднювати всі пройшли тест.
Деякі коментарі щодо розміру партії суперечать тезі в #PaperADay 5, де стверджується, що невдачі масштабування розміру пакету пов'язані з тим, що не коригували бета-2, але обґрунтування не мають такого значення, як емпірична продуктивність. Ймовірно, я спробую щось подібне найближчими днями на нашій коді RL.
Найкращі
Рейтинг
Вибране
