Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#PaperADay 8
Além da Média de Gradiente na Otimização Paralela: Robustez Aprimorada por Filtragem de Concordância de Gradiente
Recomendado por @FrancoisChauba1 depois do artigo de ontem.
Propõe o Gradient Agreement Filtering (GAF), onde gradientes independentes que possuem grandes distâncias cosseno entre eles são filtrados em vez de serem mediados para dentro. A implicação é que alguns gradientes calculados que podem ajudar na perda de treinamento são ativamente prejudiciais à generalização e devem ser descartados em vez de usados.
Isso é apresentado em termos de micro lotes em treinamento distribuído multi-GPU, mas a mesma ideia deve se aplicar a partições de qualquer lote de treinamento.
Coincidentemente, eu estava tentando algo parecido – clipping gradientes de amostras de buffer de replay IID para que não contradigam o gradiente da experiência online atual. Ainda não mostrou resultados positivos, mas ainda tenho alguns ângulos para tentar.
A observação que motiva a teoria é que, se você treinar um classificador de imagem com ruído completamente aleatório e rótulos aleatórios, ele terá 100% de precisão no treinamento e apenas precisão de validação aleatória, claramente superajustada aos dados de treinamento. Eles observam que, se você olhar a similaridade cosseno entre os gradientes dos minilotes nesse modelo de overfit, ela está sempre acima de 0,99, ou essencialmente ortogonal. Se gradientes ortogonais são um sinal confiável de overfitting, talvez você possa pular minbatches com gradientes ortogonais e reduzir o overfitting / aumentar a generalização.
No caso mais simples de dois microlotes, isso se resume a manter ou rejeitar ambos com base na semelhança cosseno, mas com mais microlotes eles propõem comparar todos os microlotes com o primeiro e fazer a média de todos os que passam no teste.
Alguns comentários sobre o tamanho do lote estão em tensão com a tese do #PaperADay 5 que afirma que falhas na escalabilidade do tamanho do lote se devem a não ajustar o beta2, mas justificativas não importam tanto quanto o desempenho empírico. Provavelmente vou tentar algo assim nos próximos dias no nosso código RL.
Melhores
Classificação
Favoritos
