¿Qué pasaría si pudieras reemplazar una parte fundamental de un Transformer por algo más simple y fuerte? Investigadores de Princeton, NYU y CMU presentan Derf. Sustituyeron la capa de "normalización" estándar por una función simple, elemento por elemento, llamada Derf (basada en una función de error gaussiana). Simplemente comprime suavemente los valores para mantener la estabilidad del entrenamiento. Ahora supera a LayerNorm y a la mejor alternativa anterior (DyT) en reconocimiento de imágenes, generación de imágenes por IA y modelado de secuencias de ADN. Transformadores más fuertes sin normalización Documento: Código: Nuestro informe: