Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O CAMINHO DE 9 ANOS PARA AS HIPER-CONEXÕES DO DEEPSEEK
Feliz Ano Novo! Passei os últimos dois dias em um profundo buraco de coelho sobre as origens do artigo do DeepSeek sobre Hiper Conexões com restrições Manifold. Isso meio que surgiu do nada, então investiguei trabalhos mais antigos dos quais se baseia.
-> Tudo começa com ResNets em 2016 (a formulação x_{l+1} = x_l + F(x_l)). He et al. mostraram que o termo de identidade passando sem modificação é o que torna as redes profundas treináveis.
-> DenseNet e FractalNet (2016-17) tentaram conectar cada camada a todas as outras camadas. Funcionou melhor, mas as conexões eram fixas, então nada foi aprendido pela rede.
-> DenseFormer no ano passado fez os pesos de média serem aprendíveis. Você obtém uma combinação ponderada de todas as saídas das camadas anteriores (mas ainda apenas um fluxo residual).
-> As Hiper-Conexões de setembro de 2024 seguiram uma direção diferente. Em vez de mais conexões, elas tornam o fluxo mais amplo. Expandem de C para n×C dimensões, adicionam matrizes de mistura aprendíveis entre os n fluxos.
-> Aqui é onde fica interessante! Quando você empilha camadas, essas matrizes de mistura se multiplicam. Se não forem restritas, o produto pode explodir. O DeepSeek encontrou magnitudes de ganho em torno de 3000x em seus modelos de 27B. Todo o ponto da mapeamento de identidade desaparece.
mHC corrige isso restringindo as matrizes de mistura para serem duplamente estocásticas através de iterações de Sinkhorn-Knopp. Essas matrizes têm norma espectral <= 1 e permanecem duplamente estocásticas quando multiplicadas. O ganho cai para ~1.6x.
Há uma boa conexão com o artigo dos Sinkformers de 2021 que aplicou Sinkhorn a matrizes de atenção. mHC faz a mesma coisa, mas para conexões residuais!
Resultado final = treinamento estável, supera tanto a linha de base quanto o HC instável, 6.7% de sobrecarga após otimização de sistemas!!!
A conexão residual tem estado basicamente intocada desde 2016. Isso pode ser o começo de algo grande LFG

Top
Classificação
Favoritos
