A DeepSeek acaba de lançar um artigo incrível para encerrar 2025 "mHC: Conexões Hiper-Manifold" As Conexões Hiper transformam a única "autoestrada" residual nos transformadores em n faixas paralelas, e cada camada aprende a embaralhar e compartilhar sinais entre as faixas. Mas se cada camada pode amplificar ou reduzir arbitrariamente as faixas, o produto desses embaralhamentos ao longo da profundidade faz com que os sinais/gradientes explodam ou desapareçam. Portanto, eles forçam cada embaralhamento a ser conservador em massa: uma matriz estocástica dupla (não negativa, cada linha/coluna soma 1). Cada camada pode apenas redistribuir sinais entre as faixas, não criar ou destruir, assim o caminho de salto profundo permanece estável enquanto as características ainda se misturam! com n=4, adiciona ~6.7% ao tempo de treinamento, mas reduz a perda final em ~0.02, e mantém o ganho de retrocesso no pior caso em ~1.6 (vs ~3000 sem a restrição), com vitórias consistentes em benchmarks em toda a parte.