¿Y si pudieras reemplazar una parte central de un Transformer por algo más simple y resistente? Investigadores de Princeton, NYU y CMU presentan a Derf. Intercambiaron la capa estándar de "normalización" por una función simple, elemento por elemento, llamada Derf (basada en una función de error gaussiana). Simplemente comprime los valores de forma suave para mantener el entrenamiento estable. Ahora supera a LayerNorm y a la mejor alternativa anterior (DyT) en reconocimiento de imágenes, generación de imágenes por IA y modelado de secuencias de ADN. Transformadores más fuertes sin normalización Papel: Código: Nuestro informe: