Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Y si pudieras reemplazar una parte central de un Transformer por algo más simple y resistente?
Investigadores de Princeton, NYU y CMU presentan a Derf.
Intercambiaron la capa estándar de "normalización" por una función simple, elemento por elemento, llamada Derf (basada en una función de error gaussiana). Simplemente comprime los valores de forma suave para mantener el entrenamiento estable.
Ahora supera a LayerNorm y a la mejor alternativa anterior (DyT) en reconocimiento de imágenes, generación de imágenes por IA y modelado de secuencias de ADN.
Transformadores más fuertes sin normalización
Papel:
Código:
Nuestro informe:

Populares
Ranking
Favoritas
