Tänk om du kunde ersätta en kärndel av en transformator med något enklare och starkare? Forskare från Princeton, NYU och CMU presenterar Derf. De bytte ut det standardiserade "normaliserings"-lagret mot en enkel, element-för-element-funktion kallad Derf (baserad på en Gaussisk felfunktion). Det krossar bara värdena smidigt för att hålla träningen stabil. Den överträffar nu LayerNorm och det tidigare bästa alternativet (DyT) inom bildigenkänning, AI-bildgenerering och DNA-sekvensmodellering. Starkare normaliseringsfria transformatorer Papper: Kod: Vår rapport: