#PaperADay 3 (espero que links embutidos reduzam o boost o suficiente para que não muita gente se irrite com esse conteúdo) @ylecun tem sido um tema atual recentemente, então hoje eu revisei: Aprendizado Auto-Supervisionado a partir de Imagens com uma Arquitetura Preditiva de Incorporação Conjunta Concordo amplamente com a ideia de que as previsões importantes são de representações internas, não de pixels, então modelos generativos podem ser um tanto contraproducentes, ou pelo menos desnecessariamente ineficientes para muitas tarefas. No entanto, tendo a pensar que a previsão interna precisa estar acontecendo em um nível mais granular do que o processamento completo de imagem, no nível minicoluna ou até neural, e com um componente temporal maior do que mascaramento local. O treinamento auto-supervisionado funciona com um grande conjunto de dados sem saber o que será pedido ao modelo depois, apenas construindo conhecimento a partir dos dados. Depois, você pode treinar um classificador linear simples (sonda linear) na saída e obter um desempenho muito bom. As melhores sondas lineares em modelos auto-supervisionados congelados não são tão fortes quanto classificadores treinados de ponta a ponta, mas o mesmo SSM exato pode ser forte para muitas tarefas diferentes ao mesmo tempo. O artigo observa que, em contraste com o JEPA, métodos de treinamento baseados em invariância que pegam a mesma imagem e a complementam de duas maneiras diferentes, mantendo a semelhança representacional, obtêm seu desempenho às custas de um conjunto de aumentos de imagem tendenciosos pelo pesquisador, que não se transferem para outras modalidades como áudio ou texto. Observo que o JEPA é muito sensível ao mascaramento exato realizado (tabela 6), que não parece muito diferente.  O codificador de alvo é superficialmente semelhante à formulação moderna do modelo alvo em redes DQN RL com um EMA dos pesos em vez de uma cópia ocasional, mas embora tenha sido um auxílio de estabilidade para RL (e nem sempre seja necessário), ele tem um propósito mais fundamental aqui: evitar que o modelo colapse representações triviais para prever. Isso, junto com o LayerNorm também ser um elemento crucial disso, não está detalhado no artigo, e precisei encontrar referências sobre isso em outro lugar. É meio estranho que eles aplicem um corte aleatório de 0,85-1,0 ao contexto, mas só removam blocos da direita e da parte inferior. Eu esperava ver uma ablação daquela plantação. Aumentar a resolução da imagem é uma forma meio estranha de escalar o modelo. Provavelmente não é a resolução que ajuda, mas sim a contagem total de patches. Há um grande corpo de trabalho sobre autosupervisão com o qual estou apenas vagamente familiarizado, então provavelmente estou deixando passar alguns aspectos importantes que distinguem o JEPA. Ainda estou lidando com a questão central do que exatamente os contextos aprendem e como a arquitetura e o treinamento do modelo os conduzem para longe do colapso.