DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Bagaimana jika Anda dapat mengganti bagian inti dari Transformer dengan sesuatu yang lebih sederhana dan lebih kuat? Para peneliti dari Princeton, NYU, dan CMU menghadirkan Derf. Mereka menukar lapisan "normalisasi" standar dengan fungsi elemen-demi-elemen sederhana yang disebut Derf (berdasarkan fungsi kesalahan Gaussian). Itu hanya dengan lancar meremas nilai untuk menjaga pelatihan tetap stabil. Sekarang mengungguli LayerNorm dan alternatif terbaik sebelumnya (DyT) dalam pengenalan gambar, pembuatan gambar AI, dan pemodelan urutan DNA. Trafo Bebas Normalisasi yang Lebih Kuat Kertas: Kode: Laporan kami:

Teratas

Peringkat

Favorit