E se potessi sostituire una parte fondamentale di un Trasformatore con qualcosa di più semplice e potente? I ricercatori di Princeton, NYU e CMU presentano Derf. Hanno sostituito il layer di "normalizzazione" standard con una semplice funzione elemento per elemento chiamata Derf (basata su una funzione di errore gaussiana). Essa comprime dolcemente i valori per mantenere stabile l'addestramento. Ora supera LayerNorm e la precedente migliore alternativa (DyT) nel riconoscimento delle immagini, nella generazione di immagini AI e nella modellazione delle sequenze di DNA. Trasformatori più potenti senza normalizzazione Documento: Codice: Il nostro rapporto: