8 #PaperADay Dincolo de media gradientului în optimizarea paralelă: Robustețe îmbunătățită prin filtrarea concordanței gradientului Recomandat de @FrancoisChauba1 după lucrarea de ieri. Propune Filtrarea prin Concordanță a Gradientului (GAF), unde gradientele independente care au distanțe mari de cosinus sunt filtrate în loc să fie mediate. Implicația este că unele gradiente calculate care pot ajuta la pierderea de antrenament sunt activ dăunătoare generalizării și ar trebui eliminate în loc să fie folosite. Acest lucru este prezentat în termeni de microloturi în antrenamentul distribuit multi-GPU, dar aceeași idee ar trebui să se aplice partițiilor oricărui lot de antrenament. Coincidență și eu încercam ceva similar – clipping gradients din sample-urile de replay buffer ale IID, ca să nu contrazică gradientul din experiența online actuală. Nu a arătat încă rezultate pozitive, dar mai am câteva unghiuri de încercat. Observația care motivează teoria este că, dacă antrenezi un clasificator de imagini pe zgomot complet aleatoriu și etichete aleatorii, acesta va avea o acuratețe de antrenament de 100% și doar o acuratețe aleatorie a validării șanselor, clar supraajustată la datele de antrenament. Ei observă că, dacă te uiți la similaritatea cosinus dintre gradientele minibatch-urilor pe acest model de overfit, aceasta este întotdeauna peste 0,99, adică practic ortogonală. Dacă gradientele ortogonale sunt un semn sigur de supraajustare, poate poți sări peste minbatch-urile cu gradiente ortogonale și să reduci supraajustarea / să crești generalizarea. În cel mai simplu caz al a două microloturi, asta se reduce la păstrarea sau respingerea ambelor pe baza asemănării cosinusului, dar cu mai multe microloturi se propune compararea tuturor microloturi cu primul și se face media tuturor celor care trec testul. Unele comentarii despre dimensiunea lotului sunt în tensiune cu teza din #PaperADay 5 care susține că eșecurile scalării dimensiunii lotului se datorează faptului că nu ajustează beta2, dar justificările nu contează aproape la fel de mult ca performanța empirică. Probabil voi încerca ceva asemănător în următoarele zile pe baza noastră de cod RL.