Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ce-ar fi dacă ai putea înlocui o parte centrală a unui Transformer cu ceva mai simplu și mai rezistent?
Cercetători de la Princeton, NYU și CMU îl prezintă pe Derf.
Au înlocuit stratul standard de "normalizare" cu o funcție simplă, element cu element, numită Derf (bazată pe o funcție de eroare gaussiană). Doar comprimă ușor valorile pentru a menține antrenamentul stabil.
Acum depășește LayerNorm și cea mai bună alternativă anterioară (DyT) în recunoașterea imaginilor, generarea de imagini AI și modelarea secvențelor ADN.
Transformatoare mai puternice, fără normalizare,
Hârtie:
Cod:
Raportul nostru:

Limită superioară
Clasament
Favorite
