Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

nor

https://t.co/uS2ndhpsX7 ML, otimização, LLMs, ex-quant

Leitura rápida do novo artigo sobre Conexões Hiper-Constrangidas (Manifold-Constrained Hyper-Connections) da Deepseek: - Você quer aumentar o tamanho do residual de 1×C para n×C (n fluxos em vez de 1). Atualização de residual anterior: x' = x + layer(x). Faça com que x seja n×C e use x' = Ax + B layer(Cx) em vez disso. A, B, C dependem todos de x e são pequenas matrizes (n×n, n×1, n×1). A parece ser a mais impactante. Isso é Conexões Hiper (HC). - HC tem o mesmo problema que outros esquemas de modificação de residual - eventualmente o produto das matrizes A aprendidas (ao longo do caminho de identidade) explode/evapora. - Para corrigir isso, eles projetam as matrizes A no politopo de Birkhoff (palavras mais simples: transformá-las, após a exp para tornar os elementos positivos, em uma matriz cujas somas de linhas e colunas se tornam 1 - chamada de matriz duplamente estocástica). Isso tem propriedades interessantes - produtos desse tipo de matrizes ainda têm soma de linha e coluna igual a 1 (devido ao fechamento), então as coisas não explodem (limite espectral), e a invariância é que a soma dos pesos entre os fluxos é 1. Para n = 1, isso se torna o fluxo de residual padrão, o que é bom. O método de transformação deles é simples - alternativamente dividir linhas e colunas pelas somas de linha e coluna, respectivamente, por 20 iterações (converge para nossa matriz desejada à medida que as iterações vão para o infinito). Eles descobrem que 20 é suficiente para tanto a passagem para frente quanto para trás (em 60 camadas, o ganho máximo para trás é 1.6 em vez de 3000 do HC usual, e 1.6 não está muito longe de 1). - Compor essas matrizes (casco convexo de todas as matrizes de permutação) leva à mistura de informações à medida que o índice da camada aumenta, o que é uma boa intuição e também é mostrado muito claramente em sua matriz composta para 60 camadas. Acredito que, no geral, obtemos uma soma ponderada de caminhos residuais (pensando em gradientes), onde caminhos logicamente agrupáveis têm pesos que somam 1. Abordagem bastante fundamentada, na minha opinião, também torna os ganhos (para frente e para trás) muito estáveis. - Coisa interessante a notar - muita mistura "semelhante a pooling" na primeira metade em comparação com a segunda metade das camadas. A segunda metade das camadas trata diferentes canais de forma mais precisa/aguda do que a primeira metade, bastante intuitivo. - Eles também mudam a parametrização de B e C (sigmoide em vez de tanh, para evitar mudar sinais provavelmente, e um fator de 2 na frente de B, acredito que para conservar o multiplicador de residual médio, C não precisa disso porque a entrada já está pré-normalizada). - Otimizações de sistemas legais para tornar essa operação rápida - eles fazem fusão de kernel, recomputação na passagem para trás do mHC, e até modificam o DualPipe (sua implementação de paralelismo de pipeline). - Apenas 6.7% de sobrecarga no treinamento quando n = 4, a perda diminui em 0.02 e melhorias em benchmarks.

Top

Classificação

Favoritos