Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 10
LeJEPA: Aprendizagem Auto-Supervisionada Provável e Escalável Sem Heurísticas
Os comentários sobre #PaperADay 3 recomendaram este artigo como o artigo JEPA de ponta, e realmente parece muito melhor!
Eles reconhecem que grande parte da pesquisa anterior sobre JEPA é ad-hoc e cheia de heurísticas, mas aqui fazem fortes afirmações teóricas de optimalidade e fornecem provas (que eu não li).
A primeira afirmação é que a gaussiana isotrópica é a única distribuição de incorporação ótima tanto para a sondagem linear quanto para a não linear, minimizando o risco no pior caso em tarefas subsequentes. Eu teria aceitado isso pela fé com apenas um "parece bom para mim", mas eles entram em detalhes e exemplos.
Na verdade, obter uma gaussiana isotrópica em altas dimensões é mais fácil dizer do que fazer. Eles apresentam a Regularização Gaussiana Isotrópica Esboçada (SIGReg) como uma função de perda bem comportada para alcançar isso após analisar uma série de testes estatísticos diferentes, e afirmam que ela supera a maldição da dimensionalidade com escalabilidade linear.
A perda final é apenas um fator de mistura para ponderar a perda de previsão do JEPA em relação à perda de isotropia do SIGReg. Este é o único hiperparâmetro ajustável para o LeJEPA.
Apesar do P em JEPA, eles não usam redes preditoras aqui, apenas comparam diretamente as incorporações de visualização para a perda do JEPA. Redes preditoras ainda poderiam ser úteis para sequências de vídeo, especialmente quando condicionadas com informações de ação para agentes / robôs.
Cada imagem de treinamento é aumentada para produzir 2 visualizações globais e 6 visualizações locais com diferentes escalas espaciais, mas o mesmo conjunto de transformações de cor e geométricas. A perda é a média do MSE entre a média das incorporações de visualização global e cada uma das incorporações de visualização local.
Não tenho uma boa noção dos trade-offs em suas transformações de visualização, que ainda parecem muito ad-hoc, mas elas determinarão a natureza do que é filtrado da representação. Aprender o que não importa é crítico, mas a especificação do que "importa" é apenas implícita nas transformações de visualização.
O LeJEPA em si é independente da arquitetura – qualquer coisa que digira um lote de amostras de um conjunto de dados em vetores pode ser usada. Transformadores de visão, MLP, ConvNets, etc. As ampliações específicas para visualizações seriam específicas do modo de entrada, mas o algoritmo LeJEPA poderia funcionar em áudio, imagens, vídeo ou outras coisas.
Eles mostram que a perda do LeJEPA em um grande modelo de base é muito indicativa do desempenho em tarefas subsequentes, tanto diretamente quanto com uma heurística para melhorar o poder preditivo da perda ainda mais.
Eles também mostram que pode ser usado para treinar do zero em pequenos conjuntos de dados com tão poucos quanto 1000 amostras e alcançar melhores resultados do que sondar um modelo de base geral convencional.
Fiquei satisfeito em ver blocos de código de exemplo no artigo em vez de pseudocódigo carregado de grego, assim como um repositório no github.
O Apêndice D tem detalhes interessantes sobre como gerar uma boa cobertura de hiperesferas unitárias com amostras de baixa discrepância transformando sequências de Sobol, mas isso é apenas para sua análise teórica, e eles mostram que é melhor simplesmente criar novos hipervetores aleatórios a cada lote, com até 16 vetores aleatórios superando um conjunto fixo de milhares.
...
Top
Classificação
Favoritos
