Hva om du kunne erstatte en kjernekomponent i en Transformer med noe enklere og sterkere? Forskere fra Princeton, NYU og CMU presenterer Derf. De byttet ut det standard "normaliserings"-laget med en enkel, element-for-element-funksjon kalt Derf (basert på en Gaussisk feilfunksjon). Det knuser bare verdier smidig for å holde treningen stabil. Den overgår nå LayerNorm og det tidligere beste alternativet (DyT) innen bildegjenkjenning, AI-bildegenerering og DNA-sekvensmodellering. Sterkere normaliseringsfrie transformatorer Artikkel: Kode: Vår rapport: