Que se passerait-il si vous pouviez remplacer une partie essentielle d'un Transformateur par quelque chose de plus simple et plus puissant ? Des chercheurs de Princeton, NYU et CMU présentent Derf. Ils ont remplacé la couche de "normalisation" standard par une fonction simple, élément par élément, appelée Derf (basée sur une fonction d'erreur gaussienne). Elle compresse simplement les valeurs de manière fluide pour maintenir la stabilité de l'entraînement. Elle surpasse désormais LayerNorm et la meilleure alternative précédente (DyT) en reconnaissance d'images, génération d'images par IA et modélisation de séquences ADN. Transformateurs sans normalisation plus puissants Article : Code : Notre rapport :