Ce-ar fi dacă ai putea înlocui o parte centrală a unui Transformer cu ceva mai simplu și mai rezistent? Cercetători de la Princeton, NYU și CMU îl prezintă pe Derf. Au înlocuit stratul standard de "normalizare" cu o funcție simplă, element cu element, numită Derf (bazată pe o funcție de eroare gaussiană). Doar comprimă ușor valorile pentru a menține antrenamentul stabil. Acum depășește LayerNorm și cea mai bună alternativă anterioară (DyT) în recunoașterea imaginilor, generarea de imagini AI și modelarea secvențelor ADN. Transformatoare mai puternice, fără normalizare, Hârtie: Cod: Raportul nostru: