IL PERCORSO DI 9 ANNI VERSO LE IPER-CONNESSIONI DI DEEPSEEK Buon Anno! Ho trascorso gli ultimi due giorni in un profondo tunnel di ricerca sulle origini del documento di DeepSeek sulle Iper Connessioni vincolate da Manifold. È uscito un po' dal nulla, quindi ho approfondito lavori precedenti su cui si basa. -> Tutto inizia con i ResNet nel 2016 (la formulazione x_{l+1} = x_l + F(x_l)). He et al. hanno dimostrato che il termine identità che passa attraverso senza modifiche è ciò che rende addestrabili le reti profonde. -> DenseNet e FractalNet (2016-17) hanno cercato di connettere ogni strato a ogni altro strato. Ha funzionato meglio, ma le connessioni erano fisse, quindi nulla veniva appreso dalla rete. -> DenseFormer l'anno scorso ha reso i pesi di mediazione apprendibili. Ottieni una combinazione pesata di tutte le uscite degli strati precedenti (ma ancora solo un flusso residuo). -> Le Iper-Connessioni di settembre 2024 sono andate in una direzione diversa. Invece di avere più connessioni, rendono il flusso più ampio. Si espande da C a n×C dimensioni, aggiungendo matrici di miscelazione apprendibili tra i n flussi. -> Ecco dove diventa interessante! Quando impili gli strati, quelle matrici di miscelazione si moltiplicano tra loro. Se non sono vincolate, il prodotto può esplodere. DeepSeek ha trovato guadagni di magnitudine intorno a 3000x nei loro modelli da 27B. L'intero scopo della mappatura identitaria è andato. mHC risolve questo vincolando le matrici di miscelazione a essere doppiamente stocastiche tramite le iterazioni di Sinkhorn-Knopp. Queste matrici hanno norma spettrale <= 1 e rimangono doppiamente stocastiche quando moltiplicate insieme. Il guadagno scende a ~1.6x. C'è una bella connessione con il documento dei Sinkformers del 2021 che ha applicato Sinkhorn alle matrici di attenzione. mHC fa la stessa cosa ma per le connessioni residue! Risultato finale = addestramento stabile, supera sia la baseline che l'HC instabile, 6.7% di sovraccarico dopo l'ottimizzazione dei sistemi!!! La connessione residua è rimasta sostanzialmente intatta dal 2016. Questo potrebbe essere l'inizio di qualcosa di grande LFG