Bagaimana jika Anda dapat mengganti bagian inti dari Transformer dengan sesuatu yang lebih sederhana dan lebih kuat? Para peneliti dari Princeton, NYU, dan CMU menghadirkan Derf. Mereka menukar lapisan "normalisasi" standar dengan fungsi elemen-demi-elemen sederhana yang disebut Derf (berdasarkan fungsi kesalahan Gaussian). Itu hanya dengan lancar meremas nilai untuk menjaga pelatihan tetap stabil. Sekarang mengungguli LayerNorm dan alternatif terbaik sebelumnya (DyT) dalam pengenalan gambar, pembuatan gambar AI, dan pemodelan urutan DNA. Trafo Bebas Normalisasi yang Lebih Kuat Kertas: Kode: Laporan kami: