Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Co jeśli moglibyście zastąpić kluczową część Transformera czymś prostszym i mocniejszym?
Badacze z Princeton, NYU i CMU przedstawiają Derf.
Zamienili standardową warstwę "normalizacji" na prostą funkcję element po elemencie nazwaną Derf (opartą na funkcji błędu Gaussa). Po prostu płynnie ściska wartości, aby utrzymać stabilność treningu.
Teraz przewyższa LayerNorm i poprzednią najlepszą alternatywę (DyT) w rozpoznawaniu obrazów, generowaniu obrazów AI i modelowaniu sekwencji DNA.
Mocniejsze Transformery bez Normalizacji
Artykuł:
Kod:
Nasz raport:

Najlepsze
Ranking
Ulubione
