Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
E se você pudesse substituir uma parte central de um Transformer por algo mais simples e resistente?
Pesquisadores de Princeton, NYU e CMU apresentam Derf.
Eles trocaram a camada padrão de "normalização" por uma função simples, elemento a elemento, chamada Derf (baseada em uma função de erro Gaussana). Ele simplesmente comprime os valores suavemente para manter o treinamento estável.
Atualmente, ele supera o LayerNorm e a melhor alternativa anterior (DyT) em reconhecimento de imagens, geração de imagens por IA e modelagem de sequências de DNA.
Transformadores Livres de Normalização Mais Fortes
Papel:
Código:
Nosso relatório:

Melhores
Classificação
Favoritos
