Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
E se potessi sostituire una parte fondamentale di un Trasformatore con qualcosa di più semplice e potente?
I ricercatori di Princeton, NYU e CMU presentano Derf.
Hanno sostituito il layer di "normalizzazione" standard con una semplice funzione elemento per elemento chiamata Derf (basata su una funzione di errore gaussiana). Essa comprime dolcemente i valori per mantenere stabile l'addestramento.
Ora supera LayerNorm e la precedente migliore alternativa (DyT) nel riconoscimento delle immagini, nella generazione di immagini AI e nella modellazione delle sequenze di DNA.
Trasformatori più potenti senza normalizzazione
Documento:
Codice:
Il nostro rapporto:

Principali
Ranking
Preferiti
