Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Que se passerait-il si vous pouviez remplacer une partie essentielle d'un Transformateur par quelque chose de plus simple et plus puissant ?
Des chercheurs de Princeton, NYU et CMU présentent Derf.
Ils ont remplacé la couche de "normalisation" standard par une fonction simple, élément par élément, appelée Derf (basée sur une fonction d'erreur gaussienne). Elle compresse simplement les valeurs de manière fluide pour maintenir la stabilité de l'entraînement.
Elle surpasse désormais LayerNorm et la meilleure alternative précédente (DyT) en reconnaissance d'images, génération d'images par IA et modélisation de séquences ADN.
Transformateurs sans normalisation plus puissants
Article :
Code :
Notre rapport :

Meilleurs
Classement
Favoris
