Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bagaimana jika Anda dapat mengganti bagian inti dari Transformer dengan sesuatu yang lebih sederhana dan lebih kuat?
Para peneliti dari Princeton, NYU, dan CMU menghadirkan Derf.
Mereka menukar lapisan "normalisasi" standar dengan fungsi elemen-demi-elemen sederhana yang disebut Derf (berdasarkan fungsi kesalahan Gaussian). Itu hanya dengan lancar meremas nilai untuk menjaga pelatihan tetap stabil.
Sekarang mengungguli LayerNorm dan alternatif terbaik sebelumnya (DyT) dalam pengenalan gambar, pembuatan gambar AI, dan pemodelan urutan DNA.
Trafo Bebas Normalisasi yang Lebih Kuat
Kertas:
Kode:
Laporan kami:

Teratas
Peringkat
Favorit
