O CAMINHO DE 9 ANOS PARA AS HIPERCONEXÕES DE DEEPSEEK Feliz Ano Novo! Passei os últimos dois dias em um profundo buraco de coelho sobre as origens do artigo do DeepSeek sobre Conexões Hiper Restritas em Manifold. Meio que surgiu do nada, então eu me aprofundei em trabalhos antigos que ele se baseia. -> Tudo começa com ResNets em 2016 (a formulação x_{l+1} = x_l + F(x_l)). He et al. mostraram que o termo identidade que passa por não modificado é o que torna as redes profundas treináveis. -> DenseNet e FractalNet (2016-17) tentaram conectar todas as camadas a todas as outras camadas. Funcionou melhor, mas as conexões foram corrigidas, então nada aprendeu pela rede -> DenseFormer no ano passado tornou a média dos pesos aprendíveis. Você obtém uma combinação ponderada de todas as saídas de camada anteriores (mas ainda assim apenas um fluxo residual) -> Hyper-Connections de setembro de 2024 seguiram uma direção diferente. Em vez de mais conexões, elas alargam o fluxo. Expanda de C para n×C dimensões, adicione matrizes de mistura aprendíveis entre os n fluxos -> É aqui que fica interessante! Quando você empilha camadas, essas matrizes de mistura se multiplicam entre si. Se não estiverem restritos, o produto pode explodir. A DeepSeek encontrou magnitudes de ganho em torno de 3000x em seus modelos 27B. Todo o propósito do mapeamento de identidade desapareceu. O mHC corrige isso restringindo as matrizes de mistura a serem duplamente estocásticas por meio de iterações de Sinkhorn-Knopp. Essas matrizes possuem norma espectral <= 1 e permanecem duplamente estocásticas quando multiplicadas juntas. O ganho cai para ~1,6x. Há uma conexão interessante com o artigo do Sinkformers de 2021, que aplicou Sinkhorn às matrizes de atenção. O mHC faz a mesma coisa, mas para conexões residuais! Resultado final = treinamento estável, supera tanto o HC de base quanto o instável, 6,7% de sobrecarga após otimização do sistema!! A conexão residual está basicamente inalterada desde 2016. Isso pode ser o começo de algo grande em LFG