Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 8
Au-delà de l'averaging des gradients dans l'optimisation parallèle : amélioration de la robustesse grâce au filtrage d'accord des gradients
Recommandé par @FrancoisChauba1 après l'article d'hier.
Propose le filtrage d'accord des gradients (GAF), où les gradients indépendants ayant de grandes distances cosinus entre eux sont filtrés au lieu d'être moyennés. L'implication est que certains gradients calculés qui peuvent aider à la perte d'entraînement sont activement nuisibles à la généralisation et devraient être écartés au lieu d'être utilisés.
Cela est présenté en termes de micro-batchs dans l'entraînement distribué multi-GPU, mais la même idée devrait s'appliquer aux partitions de n'importe quel lot d'entraînement.
J'étais justement en train d'essayer quelque chose de similaire – couper les gradients des échantillons de la mémoire tampon de replay IID afin qu'ils ne contredisent pas le gradient de l'échantillon d'expérience en ligne actuel. Cela n'a pas encore montré de résultats positifs, mais j'ai encore quelques angles à essayer.
L'observation qui motive la théorie est que si vous entraînez un classificateur d'images sur du bruit complètement aléatoire et des étiquettes aléatoires, il aura 100 % de précision d'entraînement et seulement une précision de validation par pur hasard, clairement surajusté aux données d'entraînement. Ils notent que si vous regardez la similarité cosinus entre les gradients des minibatchs sur ce modèle surajusté, elle est toujours supérieure à 0,99, ou essentiellement orthogonale. Si des gradients orthogonaux sont un signe fiable de surajustement, peut-être pouvez-vous sauter les minibatchs avec des gradients orthogonaux et réduire le surajustement / augmenter la généralisation.
Pour le cas le plus simple de deux micro-batchs, cela revient à garder ou rejeter les deux en fonction de la similarité cosinus, mais avec plus de micro-batchs, ils proposent de comparer tous les micro-batchs au premier, et de moyenniser ensemble tous ceux qui passent le test.
Certains des commentaires sur la taille des lots sont en tension avec la thèse dans #PaperADay 5 qui affirme que les échecs de mise à l'échelle de la taille des lots sont dus à un ajustement incorrect de beta2, mais les justifications n'importent pas autant que la performance empirique. Je vais probablement essayer quelque chose comme ça dans les prochains jours sur notre code de RL.
Meilleurs
Classement
Favoris
