Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#PaperADay 8
Oltre la media dei gradienti nell'ottimizzazione parallela: migliorata robustezza attraverso il filtraggio dell'accordo dei gradienti
Consigliato da @FrancoisChauba1 dopo il paper di ieri.
Propone il Filtraggio dell'Accordo dei Gradienti (GAF), dove i gradienti indipendenti che hanno grandi distanze coseno tra di loro vengono filtrati invece di essere mediati. L'implicazione è che alcuni gradienti calcolati che potrebbero aiutare con la perdita di addestramento sono attivamente dannosi per la generalizzazione e dovrebbero essere scartati invece di essere utilizzati.
Questo è presentato in termini di micro batch nell'addestramento distribuito multi-GPU, ma la stessa idea dovrebbe applicarsi a partizioni di qualsiasi batch di addestramento.
Stavo casualmente provando qualcosa di simile: tagliare i gradienti dai campioni del buffer di replay IID in modo che non contraddicano il gradiente del campione di esperienza online attuale. Non ha ancora mostrato risultati positivi, ma ho ancora qualche angolo da provare.
L'osservazione che motiva la teoria è che se alleni un classificatore di immagini su rumore completamente casuale e etichette casuali, avrà il 100% di accuratezza in addestramento e solo un'accuratezza di validazione casuale, chiaramente overfit ai dati di addestramento. Notano che se guardi la similarità coseno tra i gradienti dei minibatch su questo modello overfit, è sempre sopra 0.99, o essenzialmente ortogonale. Se i gradienti ortogonali sono un segno affidabile di overfitting, forse puoi saltare i minibatch con gradienti ortogonali e ridurre l'overfitting / aumentare la generalizzazione.
Per il caso più semplice di due microbatch, questo si riduce a mantenere o rifiutare entrambi in base alla similarità coseno, ma con più microbatch propongono di confrontare tutti i microbatch con il primo e di mediare insieme tutti quelli che superano il test.
Alcuni dei commenti sulla dimensione del batch sono in tensione con la tesi in #PaperADay 5 che afferma che i fallimenti della scalabilità della dimensione del batch sono dovuti a non regolare beta2, ma le giustificazioni non contano quasi quanto le prestazioni empiriche. Probabilmente proverò qualcosa del genere nei prossimi giorni sul nostro codice RL.
Principali
Ranking
Preferiti
