A DeepSeek acabou de lançar um artigo marcante para encerrar 2025 "mHC: Hiperconexões Restritas por Variedades" Hiperconexões transformam a única "rodovia" residual nos transformadores em n faixas paralelas, e cada camada aprende a embaralhar e compartilhar sinal entre faixas. Mas se cada camada pode amplificar ou encolher arbitrariamente as faixas, o produto desses embaralhamentos em profundidade faz com que os sinais/gradientes explodam ou desapareçam. Assim, eles forçam cada embaralhamento a conservar massa: uma matriz dupla estocástica (não negativa, cada linha/coluna soma 1). Cada camada só pode redistribuir o sinal entre as faixas, não criar ou destruí-lo, então o caminho profundo de pulo permanece estável enquanto as características ainda se misturam! Com N=4, adiciona ~6,7% do tempo de treino, mas reduz a perda final em ~0,02, e mantém o ganho inverso no pior caso ~1,6 (contra ~3000 sem a restrição), com vitórias consistentes em benchmarks