Ya bir Transformer'ın çekirdek parçasını daha basit ve daha güçlü bir şeyle değiştirebilseydiniz? Princeton, NYU ve CMU'dan araştırmacılar Derf. Standart "normalizasyon" katmanını, Gauss hata fonksiyonuna dayanan Derf adlı basit, eleman eleman bir fonksiyon ile değiştirdiler. Sadece değerleri yumuşak bir şekilde ezerek antrenmanı istikrarlı tutuyor. Artık görüntü tanıma, yapay zeka görüntü üretimi ve DNA dizisi modellemesinde LayerNorm ve önceki en iyi alternatifi (DyT) geride bırakıyor. Daha Güçlü Normalizasyon Olmayan Transformatörler Makale: Kod: Raporumuz: