DeepSeek ha appena pubblicato un documento straordinario per concludere il 2025 "mHC: Hyper-Connessioni a Vincolo Manifold" Le Hyper-Connessioni trasformano l'unica "autostrada" residua nei trasformatori in n corsie parallele, e ogni strato impara come mescolare e condividere il segnale tra le corsie. Ma se ogni strato può amplificare o ridurre arbitrariamente le corsie, il prodotto di quei mescolamenti attraverso la profondità fa sì che i segnali/i gradienti esplodano o svaniscano. Quindi costringono ogni mescolamento a conservare la massa: una matrice doppiamente stocastica (non negativa, ogni riga/colonna somma a 1). Ogni strato può solo ridistribuire il segnale tra le corsie, non crearne o distruggerne, quindi il percorso di salto profondo rimane stabile mentre le caratteristiche continuano a mescolarsi! Con n=4 aggiunge ~6.7% di tempo di addestramento, ma riduce la perdita finale di ~0.02, e mantiene il guadagno peggiore in retropropagazione ~1.6 (rispetto a ~3000 senza il vincolo), con vittorie costanti nei benchmark in tutto.