Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Gli hack non scalano. La matematica sì.
DeepSeek lo ha appena dimostrato.
Hanno lanciato un grande successo per chiudere il 2025.
"mHC: Hyper-Connessioni Constrainate da Manifold."
Ecco perché è importante:
Quando il deep learning ha preso piede, i ricercatori hanno incontrato un muro. Non puoi semplicemente impilare strati all'infinito; i segnali o esplodono o svaniscono. Addestrare reti profonde era quasi impossibile.
Le ResNet hanno risolto questo problema nel 2016 con le connessioni residue:
output = input + ciò che lo strato ha appreso
Quel "+" crea un'autostrada diretta per le informazioni. È per questo che ora possiamo addestrare reti con centinaia di strati.
Recentemente, i ricercatori si sono chiesti: e se avessimo più autostrade invece di una sola?
Le Hyper-Connessioni (HC) hanno espanso quella corsia singola in 4 corsie parallele con matrici apprendibili che mescolano le informazioni tra i flussi.
I guadagni di prestazioni erano reali. Ma c'era un problema:
Quelle matrici di mescolamento si accumulano attraverso gli strati. Un'amplificazione del 5% per strato diventa 18 volte dopo 60 strati. Il documento ha misurato un'amplificazione che raggiungeva 3000 volte, portando a collassi nell'addestramento.
Le solite soluzioni: clipping del gradiente, inizializzazione attenta e sperare che le cose funzionino.
DeepSeek è tornato ai principi fondamentali: quale vincolo matematico garantirebbe stabilità?
La risposta si nascondeva in un algoritmo di 59 anni fa (Sinkhorn-Knopp 1967)
Costringe le matrici di mescolamento a essere doppiamente stocastiche, il che significa che righe e colonne sommano ciascuna a 1.
I risultati:
- Instabilità di 3000x → 1.6x
- Stabilità garantita dalla matematica, non dalla fortuna
- Solo il 6.7% di sovraccarico di addestramento aggiuntivo
Niente hack. Solo matematica.
Se vuoi leggere di più, ho condiviso il link al documento nel tweet successivo.

carta:
205
Principali
Ranking
Preferiti
