#PaperADay 8 Utover gradientgjennomsnitt i parallell optimalisering: Forbedret robusthet gjennom gradientavtalefiltrering Anbefalt av @FrancoisChauba1 etter gårsdagens artikkel. Foreslår Gradient Agreement Filtering (GAF), hvor uavhengige gradienter med store cosinusavstander mellom seg filtreres ut i stedet for å bli gjennomsnittliggjort. Implikasjonen er at noen beregnede gradienter som kan hjelpe med treningstap er aktivt skadelige for generalisering, og bør forkastes i stedet for å brukes. Dette presenteres i form av mikrobatcher i multi-GPU distribuert trening, men samme idé bør gjelde for partisjoner i enhver treningsbatch. Jeg prøvde tilfeldigvis noe lignende – å klippe gradienter fra IID replay buffer-samples slik at de ikke motsier gradienten fra den nåværende online opplevelsesprøven. Den har ikke vist positive resultater ennå, men jeg har noen flere vinkler å prøve. Observasjonen som motiverer teorien er at hvis du trener en bildeklassifisator på helt tilfeldig støy og tilfeldige etiketter, vil den ha 100 % treningsnøyaktighet og kun tilfeldig tilfeldighetsvalidering, noe som tydeligvis er overtilpasning til treningsdataene. De bemerker at hvis du ser på cosinuslikhet mellom gradientene til minibatcher på denne overfit-modellen, er den alltid over 0,99, eller i praksis ortogonal. Hvis ortogonale gradienter er et pålitelig tegn på overtilpasning, kan du kanskje hoppe over minbatches med ortogonale gradienter og redusere overtilpasning / øke generalisering. For det enkleste tilfellet med to mikrobatcher handler det om enten å beholde eller forkaste begge basert på cosinuslikheten, men med flere mikrobatcher foreslår de å sammenligne alle mikrobatchene med den første, og gjennomsnittliggjøre alle som består testen. Noen av kommentarene om batchstørrelse er i konflikt med tesen i #PaperADay 5 som hevder at feil i batchstørrelsesskalering skyldes manglende justering av beta2, men begrunnelser betyr ikke like mye som empirisk ytelse. Jeg kommer sannsynligvis til å prøve noe lignende i løpet av de neste dagene på vår RL-kodebase.