#PaperADay 8 Über Gradient Averaging in paralleler Optimierung hinaus: Verbesserte Robustheit durch Gradient Agreement Filtering Empfohlen von @FrancoisChauba1 nach dem gestrigen Papier. Schlägt Gradient Agreement Filtering (GAF) vor, bei dem unabhängige Gradienten, die große Kosinus-Abstände zueinander haben, herausgefiltert werden, anstatt in die Durchschnittsbildung einbezogen zu werden. Die Implikation ist, dass einige berechnete Gradienten, die möglicherweise bei der Trainingsverlustminimierung helfen, aktiv schädlich für die Generalisierung sind und verworfen werden sollten, anstatt verwendet zu werden. Dies wird in Bezug auf Mikro-Batches im Multi-GPU-Distributed-Training präsentiert, aber dieselbe Idee sollte auf Partitionen eines beliebigen Trainings-Batches anwendbar sein. Ich habe zufällig gerade etwas Ähnliches ausprobiert – Gradienten von IID-Replay-Pufferproben zu beschneiden, damit sie nicht den Gradienten aus der aktuellen Online-Erfahrungsprobe widersprechen. Es hat bisher keine positiven Ergebnisse gezeigt, aber ich habe noch ein paar weitere Ansätze, die ich ausprobieren möchte. Die Beobachtung, die die Theorie motiviert, ist, dass, wenn man einen Bildklassifikator auf völlig zufälligem Rauschen und zufälligen Labels trainiert, er eine Trainingsgenauigkeit von 100 % und nur eine zufällige Validierungsgenauigkeit hat, was eindeutig auf Überanpassung an die Trainingsdaten hinweist. Sie stellen fest, dass, wenn man die Kosinusähnlichkeit zwischen den Gradienten von Minibatches in diesem überangepassten Modell betrachtet, sie immer über 0,99 liegt, oder im Wesentlichen orthogonal ist. Wenn orthogonale Gradienten ein zuverlässiges Zeichen für Überanpassung sind, könnte man vielleicht Minibatches mit orthogonalen Gradienten überspringen und die Überanpassung reduzieren / die Generalisierung erhöhen. Im einfachsten Fall von zwei Mikro-Batches kommt es darauf an, entweder beide basierend auf der Kosinusähnlichkeit zu behalten oder abzulehnen, aber bei mehr Mikro-Batches schlagen sie vor, alle Mikro-Batches mit dem ersten zu vergleichen und alle, die den Test bestehen, zusammen zu mitteln. Einige der Kommentare zur Batch-Größe stehen im Widerspruch zur These in #PaperADay 5, die behauptet, dass die Misserfolge der Batch-Größen-Skalierung auf das Nicht-Anpassen von beta2 zurückzuführen sind, aber Rechtfertigungen sind nicht annähernd so wichtig wie die empirische Leistung. Ich werde wahrscheinlich in den nächsten Tagen etwas Ähnliches in unserem RL-Codebase ausprobieren.