Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hva om du kunne erstatte en kjernekomponent i en Transformer med noe enklere og sterkere?
Forskere fra Princeton, NYU og CMU presenterer Derf.
De byttet ut det standard "normaliserings"-laget med en enkel, element-for-element-funksjon kalt Derf (basert på en Gaussisk feilfunksjon). Det knuser bare verdier smidig for å holde treningen stabil.
Den overgår nå LayerNorm og det tidligere beste alternativet (DyT) innen bildegjenkjenning, AI-bildegenerering og DNA-sekvensmodellering.
Sterkere normaliseringsfrie transformatorer
Artikkel:
Kode:
Vår rapport:

Topp
Rangering
Favoritter
