Gli hack non scalano. La matematica sì. DeepSeek lo ha appena dimostrato. Hanno lanciato un grande successo per chiudere il 2025. "mHC: Hyper-Connessioni Constrainate da Manifold." Ecco perché è importante: Quando il deep learning ha preso piede, i ricercatori hanno incontrato un muro. Non puoi semplicemente impilare strati all'infinito; i segnali o esplodono o svaniscono. Addestrare reti profonde era quasi impossibile. Le ResNet hanno risolto questo problema nel 2016 con le connessioni residue: output = input + ciò che lo strato ha appreso Quel "+" crea un'autostrada diretta per le informazioni. È per questo che ora possiamo addestrare reti con centinaia di strati. Recentemente, i ricercatori si sono chiesti: e se avessimo più autostrade invece di una sola? Le Hyper-Connessioni (HC) hanno espanso quella corsia singola in 4 corsie parallele con matrici apprendibili che mescolano le informazioni tra i flussi. I guadagni di prestazioni erano reali. Ma c'era un problema: Quelle matrici di mescolamento si accumulano attraverso gli strati. Un'amplificazione del 5% per strato diventa 18 volte dopo 60 strati. Il documento ha misurato un'amplificazione che raggiungeva 3000 volte, portando a collassi nell'addestramento. Le solite soluzioni: clipping del gradiente, inizializzazione attenta e sperare che le cose funzionino. DeepSeek è tornato ai principi fondamentali: quale vincolo matematico garantirebbe stabilità? La risposta si nascondeva in un algoritmo di 59 anni fa (Sinkhorn-Knopp 1967) Costringe le matrici di mescolamento a essere doppiamente stocastiche, il che significa che righe e colonne sommano ciascuna a 1. I risultati: - Instabilità di 3000x → 1.6x - Stabilità garantita dalla matematica, non dalla fortuna - Solo il 6.7% di sovraccarico di addestramento aggiuntivo Niente hack. Solo matematica. Se vuoi leggere di più, ho condiviso il link al documento nel tweet successivo.
carta:
205