DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Model universal de raționament Transformerii Universali îi zdrobesc pe Transformerii standard în sarcini de raționament. Dar de ce? Lucrările anterioare au atribuit câștigurile inovațiilor arhitecturale elaborate, precum designurile ierarhice și mecanismele complexe de poartă. Dar acești cercetători au găsit o explicație mai simplă. Această nouă cercetare demonstrează că câștigurile de performanță ale ARC-AGI provin în principal din doi factori adesea neglijați: biasul inductiv recurent și o neliniaritate puternică. Aplicarea repetată a unei singure transformări funcționează mult mai bine decât stivuirea straturilor distincte pentru sarcini de raționament. Cu doar 4x parametri, un Transformator Universal obține 40% pass@1 pe ARC-AGI 1. Transformers vanilla cu parametri 32x obțin doar 23,75%. Simpla scalare a adâncimii sau lățimii în transformatoarele standard aduce randamente descrescătoare și poate chiar degrada performanța. Ei introduc Modelul de Raționament Universal (URM), care îl îmbunătățește cu două tehnici. În primul rând, ConvSwiGLU adaugă o convoluție scurtă în profunzime după expansiunea MLP, injectând amestec local de tokenuri în calea neliniară. În al doilea rând, Backpropagation Through Loops Trunchiat sare peste calculul gradientului pentru iterațiile recurente timpurii, stabilizând optimizarea. Rezultate: 53,8% pass@1 ARC-AGI 1, în creștere față de 40% (TRM) și 34,4% (HRM). La ARC-AGI 2, URM atinge 16% pass@1, aproape triplând HRM și mai mult decât dublându-se TRM. Precizia Sudoku atinge 77,6%. Ablații: - Eliminarea scăderii de convoluție scurtă pass@1 de la 53,8% la 45,3%. Eliminarea retropropagării trunchiate scade la 40%. - Înlocuirea SwiGLU cu activări mai simple, cum ar fi performanța rezervoarelor ReLU la 28,6%. - Eliminarea atenției, softmax prăbușește complet acuratețea la 2%. Structura recurentă transformă calculul în adâncime efectivă. Transformatoarele standard cheltuiesc FLOP-uri pentru rafinarea redundantă în straturile superioare. Calculul recurent concentrează același buget pe raționamentul iterativ. Raționamentul complex beneficiază mai mult de calculul iterativ decât de scară. Modelele mici cu structură recurentă depășesc modelele statice mari în sarcini care necesită abstracție în mai mulți pași.

Limită superioară

Clasament

Favorite