10 #PaperADay LeJEPA: Aprendizado Auto-Supervisionado Comprovável e Escalável sem as Heurísticas Os comentários no #PaperADay 3 recomendavam este artigo como o último artigo da JEPA, e ele realmente parece muito melhor! Eles reconhecem que grande parte das pesquisas anteriores sobre a JEPA é improvisada e cheia de heurísticas, mas aqui fazem fortes alegações teóricas de optimalidade e apresentam provas (que eu não li). A primeira afirmação é que a gaussiana isotrópica é a única distribuição ótima de embedding tanto para sondagens lineares quanto não lineares, minimizando o risco no pior caso entre tarefas posteriores. Eu teria aceitado isso com fé e só com um "parece bom para mim", mas eles explicam com detalhes e exemplos. Na verdade, conseguir uma gaussiana isotrópica em grandes dimensões é mais fácil falar do que fazer. Eles apresentam a Regularização Gaussiana Isotrópica Esboçada (SIGReg) como uma função de perda bem comportada para alcançar isso após analisar vários testes estatísticos diferentes, e afirmam que ela vence a maldição da dimensionalidade com escalabilidade linear. A perda final é apenas um fator de mistura para ponderar a perda da previsão JEPA contra a perda de isotropia SIGReg. Este é o único hiperparâmetro ajustável para o LeJEPA. Apesar do P no JEPA, eles não usam redes preditoras aqui, apenas comparam diretamente os embeddings de visualização para a perda do JEPA. Redes preditoras ainda podem ser úteis para sequências de vídeo, especialmente quando condicionadas com informações de ação para agentes/robôs. Cada imagem de treinamento é ampliada para produzir 2 visões globais e 6 vistas locais com diferentes escalas espaciais, mas o mesmo conjunto de transformações de cor e geométricas. A perda é a média do MSE entre a média das embeddings de visualização global e cada uma das embeddings de visualização local. Não tenho uma boa noção dos tradeoffs nas transformações de visão deles, que ainda parecem muito no espaço ad hoc, mas eles determinam a natureza do que é filtrado da representação. Aprender o que não importa é fundamental, mas a especificação de "importa" é apenas implícita nas transformações de visão. O próprio LeJEPA é independente da arquitetura – qualquer coisa que digera um lote de amostras de um conjunto de dados em vetores pode ser usada. Transformadores de visão, MLP, ConvNets, etc. As ampliações específicas para visualizações seriam específicas da modalidade de entrada, mas o algoritmo LeJEPA poderia funcionar em áudio, imagens, vídeo ou outras coisas. Eles mostram que a perda LeJEPA em um modelo de fundação grande é muito indicativa do desempenho da tarefa a jusante, tanto diretamente, quanto com uma heurística para melhorar ainda mais o poder preditivo da perda. Eles também mostram que pode ser usado para treinar do zero em pequenos conjuntos de dados com apenas 1000 amostras e alcançar resultados melhores do que sondar um modelo convencional de fundação geral. Fiquei satisfeito ao ver blocos de código de exemplo no artigo em vez de pseudocódigo carregado de grego, além de um repositório no github. O Apêndice D traz detalhes interessantes sobre como gerar boa cobertura de hiperesferas unitárias com amostras de baixa discrepância transformando sequências de Sobol, mas isso é apenas para análise teórica deles, e eles mostram que é melhor criar novos hipervetores aleatórios a cada lote, com até 16 vetores aleatórios superando um conjunto fixo de milhares. Algumas perguntas:...