DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Modello di Ragionamento Universale I Trasformatori Universali superano i Trasformatori standard nei compiti di ragionamento. Ma perché? Lavori precedenti hanno attribuito i guadagni a elaborate innovazioni architettoniche come design gerarchici e meccanismi di gating complessi. Ma questi ricercatori hanno trovato una spiegazione più semplice. Questa nuova ricerca dimostra che i guadagni di prestazione su ARC-AGI derivano principalmente da due fattori spesso trascurati: il bias induttivo ricorrente e una forte non linearità. Applicare una singola trasformazione ripetutamente funziona molto meglio che impilare strati distinti per compiti di ragionamento. Con solo 4x parametri, un Trasformatore Universale raggiunge il 40% di pass@1 su ARC-AGI 1. I Trasformatori Vanilla con 32x parametri ottengono solo il 23,75%. Semplicemente scalare la profondità o la larghezza nei Trasformatori standard produce rendimenti decrescenti e può persino degradare le prestazioni. Introducono il Modello di Ragionamento Universale (URM), che migliora questo con due tecniche. Prima, ConvSwiGLU aggiunge una convoluzione corta a profondità dopo l'espansione MLP, iniettando un mixing locale dei token nel percorso non lineare. Secondo, il Backpropagation Troncato Attraverso i Cicli salta il calcolo del gradiente per le prime iterazioni ricorrenti, stabilizzando l'ottimizzazione. Risultati: 53,8% di pass@1 su ARC-AGI 1, in aumento rispetto al 40% (TRM) e al 34,4% (HRM). Su ARC-AGI 2, URM raggiunge il 16% di pass@1, quasi triplicando HRM e più che raddoppiando TRM. L'accuratezza nel Sudoku raggiunge il 77,6%. Ablazioni: - Rimuovere la convoluzione corta fa scendere il pass@1 dal 53,8% al 45,3%. Rimuovere il backpropagation troncato lo riduce al 40%. - Sostituire SwiGLU con attivazioni più semplici come ReLU fa crollare le prestazioni al 28,6%. - Rimuovere completamente l'attenzione softmax fa collassare l'accuratezza al 2%. La struttura ricorrente converte il calcolo in profondità efficace. I Trasformatori standard spendono FLOP su affinamenti ridondanti nei livelli superiori. Il calcolo ricorrente concentra lo stesso budget su ragionamenti iterativi. Il ragionamento complesso beneficia di più dal calcolo iterativo che dalla scala. Modelli piccoli con struttura ricorrente superano modelli statici grandi in compiti che richiedono astrazione a più passaggi.

Principali

Ranking

Preferiti