Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Model univerzálního uvažování
Univerzální Transformers drtí standardní Transformers v logických úlohách.
Ale proč?
Předchozí práce přisuzovala tyto úspěchy propracovaným architektonickým inovacím, jako jsou hierarchické návrhy a složité bránové mechanismy.
Ale tito výzkumníci našli jednodušší vysvětlení.
Tento nový výzkum ukazuje, že výkonnostní zisky na ARC-AGI pocházejí především ze dvou často přehlížených faktorů: rekurentní induktivní zkreslení a silné nelinearnosti.
Opakované použití jedné transformace funguje mnohem lépe než vrstvení samostatných vrstev pro logické úkoly.
S pouhými 4x parametry dosahuje univerzální transformátor 40% pass@1 na ARC-AGI 1. Vanilla Transformers s 32x parametry skórují jen 23,75 %. Pouhé škálování hloubky nebo šířky ve standardních Transformers přináší klesající výnosy a může dokonce snížit výkon.
Představují univerzální model uvažování (URM), který tento model rozšiřuje o dvě techniky. Nejprve ConvSwiGLU přidává po rozšíření MLP krátkou hloubkovou konvoluci, která vkládá lokální míchání tokenů do nelineární cesty. Za druhé, Trunkated Backpropagation Through Loops přeskakuje výpočet gradientu pro rané opakující se iterace, čímž stabilizuje optimalizaci.
Výsledky: 53,8 % pass@1 na ARC-AGI 1, což je nárůst oproti 40 % (TRM) a 34,4 % (HRM). Na ARC-AGI 2 dosahuje URM 16 % pass@1, což téměř ztrojnásobuje tepovou frekvenci a více než zdvojnásobuje TRM. Přesnost Sudoku dosahuje 77,6 %.
Ablace:
- Odstranění krátké konvoluce klesá pass@1 z 53,8 % na 45,3 %. Odstraněním zkrácené zpětné propagace se sníží na 40 %.
- Nahrazení SwiGLU jednoduššími aktivacemi, například ReLU snižuje výkon na 28,6 %.
- Úplné odstranění pozornosti softmax snižuje přesnost na 2 %.
Rekurentní struktura převádí výpočetní údaje na efektivní hloubku. Standardní transformátory utrácejí FLOP na redundantní zdokonalování ve vyšších vrstvách. Rekurentní výpočty soustředí stejný rozpočet na iterativní uvažování.
Komplexní uvažování těží více z iterativního výpočtu než ze škálování. Malé modely s rekurentní strukturou překonávají velké statické modely v úkolech vyžadujících vícestupňovou abstrakci.

Top
Hodnocení
Oblíbené
