Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
E se você pudesse substituir uma parte central de um Transformer por algo mais simples e mais forte?
Pesquisadores de Princeton, NYU e CMU apresentam o Derf.
Eles trocaram a camada de "normalização" padrão por uma função simples, elemento por elemento, chamada Derf (baseada em uma função de erro gaussiana). Ela simplesmente comprime suavemente os valores para manter o treinamento estável.
Agora, ela supera o LayerNorm e a melhor alternativa anterior (DyT) em reconhecimento de imagem, geração de imagens por IA e modelagem de sequências de DNA.
Transformers mais fortes sem normalização
Artigo:
Código:
Nosso relatório:

Top
Classificação
Favoritos
