Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Universaali päättelymalli
Universaalit muuntajat murskaavat tavalliset muuntajat päättelytehtävissä.
Mutta miksi?
Aiemmat tutkimukset katsoivat hyötyjen johtuvan monimutkaisista arkkitehtonisista innovaatioista, kuten hierarkkisista suunnitelmista ja monimutkaisista porttimekanismeista.
Mutta nämä tutkijat löysivät yksinkertaisemman selityksen.
Tämä uusi tutkimus osoittaa, että ARC-AGI:n suorituskyvyn parannukset johtuvat pääasiassa kahdesta usein huomiotta jääneestä tekijästä: toistuvasta induktiivisesta harhasta ja vahvasta epälineaarisuudesta.
Yhden muunnoksen toistuva soveltaminen toimii paljon paremmin kuin erillisten kerrosten pinottaminen päättelytehtäviin.
Vain 4x parametrilla Universal Transformer saavuttaa 40 % pass@1 ARC-AGI 1:llä. Vanilla Transformers 32x parametreilla saa vain 23,75 %. Pelkkä syvyyden tai leveyden skaalaaminen tavallisissa Transformereissa tuottaa heikentyviä tuottoja ja voi jopa heikentää suorituskykyä.
He esittelevät universaalin päättelymallin (URM), joka parantaa tätä kahdella tekniikalla. Ensinnäkin ConvSwiGLU lisää syvällisesti lyhyen konvoluution MLP-laajennuksen jälkeen, mikä lisää paikallisen tokenin sekoittumisen ei-lineaariseen reittiin. Toiseksi, Trunkated Backpropagation Through Loops ohittaa gradienttilaskennan varhaisissa toistuvissa iteraatioissa, mikä vakauttaa optimointia.
Tulokset: 53,8 % pass@1 ARC-AGI 1:stä, nousua 40 %:sta (TRM) ja 34,4 %:sta (HRM). ARC-AGI 2:ssa URM saavuttaa 16 % pass@1, lähes kolminkertaistaen HRM:n ja yli kaksinkertaistaen TRM:n. Sudokun tarkkuus on 77,6 %.
Ablaatiot:
- Lyhyen konvoluution poistaminen pudottaa pass@1 53,8 %:sta 45,3 %:iin. Katkaistun takaisinetenemisen poistaminen laskee 40 %:iin.
- Korvata SwiGLU yksinkertaisemmilla aktivaatioilla, kuten ReLU:n tankkien suorituskyky 28,6 %:iin.
- Huomion poistaminen softmaxista kokonaan romahtaa tarkkuuden 2 %:iin.
Toistuva rakenne muuntaa laskennan tehokkaaksi syvyydeksi. Tavalliset Transformerit käyttävät FLOPeja redundanttiin hienosäätöön korkeammissa kerroksissa. Toistuva laskenta keskittää saman budjetin iteratiiviseen päättelyyn.
Kompleksinen päättely hyötyy enemmän iteratiivisesta laskennasta kuin mittakaavasta. Pienet mallit, joissa on toistuva rakenne, päihittävät suuret staattiset mallit tehtävissä, jotka vaativat monivaiheista abstraktiota.

Johtavat
Rankkaus
Suosikit
