Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 8
Bortom gradientmedelvärde i parallell optimering: Förbättrad robusthet genom gradientavtalsfiltrering
Rekommenderad av @FrancoisChauba1 efter gårdagens artikel.
Föreslår gradient agreement filtering (GAF), där oberoende gradienter med stora cosinusavstånd filtreras bort istället för att medelvärdes. Implikationen är att vissa beräknade gradienter som kan hjälpa mot träningsförlust är aktivt skadliga för generaliseringen och bör kasseras istället för att användas.
Detta presenteras i termer av mikrobatcher i multi-GPU distribuerad träning, men samma idé bör gälla för partitioner av vilken träningsbatch som helst.
Jag råkade precis prova något liknande – klippa gradienter från IID-replay-buffertprover så att de inte motsäger gradienten från det nuvarande online-upplevelseprovet. Den har ännu inte visat några positiva resultat, men jag har några fler vinklar att prova.
Observationen som motiverar teorin är att om du tränar en bildklassificerare på helt slumpmässigt brus och slumpmässiga etiketter, kommer den att ha 100% träningsnoggrannhet och endast slumpmässig slumpvalideringsnoggrannhet, vilket tydligt är överanpassning till träningsdatan. De noterar att om man tittar på cosinuslikhet mellan gradienterna av minibatcher i denna overfit-modell, är den alltid över 0,99, eller i princip ortogonal. Om ortogonala gradienter är ett tillförlitligt tecken på överanpassning kanske du kan hoppa över minbatcher med ortogonala gradienter och minska överanpassning / öka generaliseringen.
För det enklaste fallet med två mikrobatcher handlar det om att antingen behålla eller förkasta båda baserat på cosinuslikheten, men med fler mikrobatcher föreslår de att man jämför alla mikrobatcher med den första och medelvärdesräknar alla som klarar testet.
Vissa kommentarer om batchstorlek står i konflikt med tesen i #PaperADay 5 som hävdar att misslyckanden med batchstorleksskalning beror på att beta2 inte justeras, men motiveringar spelar inte alls lika stor roll som empirisk prestanda. Jag kommer troligen att prova något liknande de närmaste dagarna på vår RL-kodbas.
Topp
Rankning
Favoriter
