E se você pudesse substituir uma parte central de um Transformer por algo mais simples e resistente? Pesquisadores de Princeton, NYU e CMU apresentam Derf. Eles trocaram a camada padrão de "normalização" por uma função simples, elemento a elemento, chamada Derf (baseada em uma função de erro Gaussana). Ele simplesmente comprime os valores suavemente para manter o treinamento estável. Atualmente, ele supera o LayerNorm e a melhor alternativa anterior (DyT) em reconhecimento de imagens, geração de imagens por IA e modelagem de sequências de DNA. Transformadores Livres de Normalização Mais Fortes Papel: Código: Nosso relatório: