Co jeśli moglibyście zastąpić kluczową część Transformera czymś prostszym i mocniejszym? Badacze z Princeton, NYU i CMU przedstawiają Derf. Zamienili standardową warstwę "normalizacji" na prostą funkcję element po elemencie nazwaną Derf (opartą na funkcji błędu Gaussa). Po prostu płynnie ściska wartości, aby utrzymać stabilność treningu. Teraz przewyższa LayerNorm i poprzednią najlepszą alternatywę (DyT) w rozpoznawaniu obrazów, generowaniu obrazów AI i modelowaniu sekwencji DNA. Mocniejsze Transformery bez Normalizacji Artykuł: Kod: Nasz raport: