#PaperADay 8 Za hranicemi průměrování gradientů v paralelní optimalizaci: Zlepšená robustnost díky filtrování podle gradientové dohody Doporučeno @FrancoisChauba1 po včerejším článku. Navrhuje filtrování gradientní dohody (GAF), kde jsou nezávislé gradienty s velkými kosinusovými vzdálenostmi filtrovány místo toho, aby byly průměrovány v. Z toho vyplývá, že některé vypočítané gradienty, které mohou pomoci se ztrátou tréninku, jsou aktivně škodlivé pro generalizaci a měly by být vynechány místo používání. To je prezentováno v termínech mikrodávek v distribuovaném trénování s více GPU, ale stejný princip by měl platit i pro oddíly jakékoliv tréninkové dávky. Náhodou jsem zkoušel něco podobného – ořezávání gradientů z IID replay buffer vzorků, aby neodporovaly gradientu z aktuálního online zážitkového vzorku. Zatím to neukázalo pozitivní výsledky, ale mám ještě pár dalších úhlů, které mohu vyzkoušet. Pozorování, které tuto teorii motivuje, je, že pokud trénujete klasifikátor obrazů na zcela náhodném šumu a náhodných štítkech, bude mít 100% přesnost trénování a pouze přesnost náhodné validace, což je zjevně přesné přizpůsobení trénovacím datům. Upozorňují, že pokud se podíváte na kosinusovou podobnost mezi gradienty minibatchů na tomto modelu přestížení, je vždy nad 0,99, tedy v podstatě ortogonální. Pokud jsou ortogonální gradienty spolehlivým znakem přefitování, možná můžeš minbatche s ortogonálními gradienty vynechat a snížit overfiting / zvýšit generalizaci. V nejjednodušším případě dvou mikrodávek to znamená buď ponechání, nebo odmítnutí obou na základě kosinusové podobnosti, ale u více mikrodávek navrhují porovnat všechny mikrovárky s první a zprůměrovat všechny, které test prošly. Některé komentáře o velikosti dávky jsou v rozporu s tezí v #PaperADay 5, která tvrdí, že selhání škálování velikosti dávek je způsobeno neúpravou beta2, ale odůvodnění nejsou tak důležitá jako empirický výkon. Pravděpodobně něco takového zkusím v příštích dnech na našem RL kódu.