Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Model Rozumowania Uniwersalnego
Uniwersalne Transformatory przewyższają standardowe Transformatory w zadaniach rozumowania.
Ale dlaczego?
Poprzednie prace przypisywały zyski skomplikowanym innowacjom architektonicznym, takim jak hierarchiczne projekty i złożone mechanizmy bramkowe.
Jednak ci badacze znaleźli prostsze wyjaśnienie.
Nowe badania pokazują, że zyski wydajności w ARC-AGI pochodzą głównie z dwóch często pomijanych czynników: rekurencyjnego indukcyjnego biasu i silnej nieliniowości.
Stosowanie pojedynczej transformacji wielokrotnie działa znacznie lepiej niż układanie odrębnych warstw w zadaniach rozumowania.
Zaledwie 4x parametry, Uniwersalny Transformator osiąga 40% pass@1 w ARC-AGI 1. Standardowe Transformatory z 32x parametrami uzyskują tylko 23,75%. Proste zwiększanie głębokości lub szerokości w standardowych Transformatorach przynosi malejące zyski, a nawet może pogorszyć wydajność.
Wprowadzają Model Rozumowania Uniwersalnego (URM), który wzmacnia to za pomocą dwóch technik. Po pierwsze, ConvSwiGLU dodaje konwolucję krótką o głębokości po rozszerzeniu MLP, wprowadzając lokalne mieszanie tokenów do nieliniowej ścieżki. Po drugie, Truncated Backpropagation Through Loops pomija obliczenia gradientu dla wczesnych iteracji rekurencyjnych, stabilizując optymalizację.
Wyniki: 53,8% pass@1 w ARC-AGI 1, wzrost z 40% (TRM) i 34,4% (HRM). W ARC-AGI 2, URM osiąga 16% pass@1, niemal potrajając HRM i więcej niż podwajając TRM. Dokładność Sudoku osiąga 77,6%.
Ablacje:
- Usunięcie krótkiej konwolucji obniża pass@1 z 53,8% do 45,3%. Usunięcie skróconej propagacji wstecznej obniża to do 40%.
- Zastąpienie SwiGLU prostszymi aktywacjami, takimi jak ReLU, drastycznie obniża wydajność do 28,6%.
- Całkowite usunięcie softmax uwagi całkowicie załamuje dokładność do 2%.
Struktura rekurencyjna przekształca obliczenia w efektywną głębokość. Standardowe Transformatory wydają FLOPy na zbędne udoskonalenia w wyższych warstwach. Obliczenia rekurencyjne koncentrują ten sam budżet na iteracyjnym rozumowaniu.
Skomplikowane rozumowanie korzysta bardziej z obliczeń iteracyjnych niż ze skali. Małe modele ze strukturą rekurencyjną przewyższają duże modele statyczne w zadaniach wymagających wieloetapowej abstrakcji.

Najlepsze
Ranking
Ulubione
