Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Co jeśli moglibyście zastąpić kluczową część Transformera czymś prostszym i mocniejszym? Badacze z Princeton, NYU i CMU przedstawiają Derf. Zamienili standardową warstwę "normalizacji" na prostą funkcję element po elemencie nazwaną Derf (opartą na funkcji błędu Gaussa). Po prostu płynnie ściska wartości, aby utrzymać stabilność treningu. Teraz przewyższa LayerNorm i poprzednią najlepszą alternatywę (DyT) w rozpoznawaniu obrazów, generowaniu obrazów AI i modelowaniu sekwencji DNA. Mocniejsze Transformery bez Normalizacji Artykuł: Kod: Nasz raport:

Najlepsze

Ranking

Ulubione