E se você pudesse substituir uma parte central de um Transformer por algo mais simples e mais forte? Pesquisadores de Princeton, NYU e CMU apresentam o Derf. Eles trocaram a camada de "normalização" padrão por uma função simples, elemento por elemento, chamada Derf (baseada em uma função de erro gaussiana). Ela simplesmente comprime suavemente os valores para manter o treinamento estável. Agora, ela supera o LayerNorm e a melhor alternativa anterior (DyT) em reconhecimento de imagem, geração de imagens por IA e modelagem de sequências de DNA. Transformers mais fortes sem normalização Artigo: Código: Nosso relatório: