Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#PaperADay 8
Além da Média de Gradientes na Otimização Paralela: Robustez Aprimorada através da Filtragem de Acordo de Gradiente
Recomendado por @FrancoisChauba1 após o artigo de ontem.
Propõe a Filtragem de Acordo de Gradiente (GAF), onde gradientes independentes que têm grandes distâncias cosseno entre si são filtrados em vez de serem incluídos na média. A implicação é que alguns gradientes calculados que podem ajudar na perda de treinamento são ativamente prejudiciais à generalização e devem ser descartados em vez de utilizados.
Isso é apresentado em termos de micro lotes no treinamento distribuído em múltiplas GPUs, mas a mesma ideia deve se aplicar a partições de qualquer lote de treinamento.
Eu estava, por coincidência, tentando algo semelhante – cortando gradientes de amostras do buffer de repetição IID para que não contradigam o gradiente da amostra de experiência online atual. Ainda não mostrou resultados positivos, mas tenho mais algumas abordagens para tentar.
A observação que motiva a teoria é que, se você treinar um classificador de imagem em ruído completamente aleatório e rótulos aleatórios, ele terá 100% de precisão no treinamento e apenas precisão de validação por acaso, claramente superajustado aos dados de treinamento. Eles observam que, se você olhar para a similaridade cosseno entre os gradientes de minibatches neste modelo superajustado, ela está sempre acima de 0.99, ou essencialmente ortogonal. Se gradientes ortogonais são um sinal confiável de superajuste, talvez você possa pular minibatches com gradientes ortogonais e reduzir o superajuste/aumentar a generalização.
Para o caso mais simples de dois microbatches, isso se resume a manter ou rejeitar ambos com base na similaridade cosseno, mas com mais microbatches eles propõem comparar todos os microbatches com o primeiro e fazer a média de todos os que passam no teste.
Alguns dos comentários sobre o tamanho do lote estão em tensão com a tese no #PaperADay 5 que afirma que as falhas na escalabilidade do tamanho do lote se devem à não ajuste do beta2, mas as justificativas não importam tanto quanto o desempenho empírico. Provavelmente tentarei algo assim nos próximos dias em nosso código base de RL.
Top
Classificação
Favoritos
