Entä jos voisit korvata Transformerin ydinosan jollain yksinkertaisemmalla ja vahvemmalta? Princetonin, NYU:n ja CMU:n tutkijat esittelevät Derf. He vaihtoivat standardin "normalisointikerroksen" yksinkertaiseen, alkiolokohtaiseen funktioon nimeltä Derf (joka perustuu Gaussin virhefunktioon). Se vain pehmeästi tukahduttaa arvot pitääkseen harjoittelun vakaana. Se päihittää nyt LayerNormin ja aiemman parhaan vaihtoehdon (DyT) kuvantunnistuksessa, tekoälykuvantuotannossa ja DNA-sekvenssimallinnuksessa. Vahvemmat normalisaatiovapaat muuntajat Artikkeli: Koodi: Raporttimme: