Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Qué pasaría si pudieras reemplazar una parte fundamental de un Transformer por algo más simple y fuerte?
Investigadores de Princeton, NYU y CMU presentan Derf.
Sustituyeron la capa de "normalización" estándar por una función simple, elemento por elemento, llamada Derf (basada en una función de error gaussiana). Simplemente comprime suavemente los valores para mantener la estabilidad del entrenamiento.
Ahora supera a LayerNorm y a la mejor alternativa anterior (DyT) en reconocimiento de imágenes, generación de imágenes por IA y modelado de secuencias de ADN.
Transformadores más fuertes sin normalización
Documento:
Código:
Nuestro informe:

Parte superior
Clasificación
Favoritos
