Was wäre, wenn Sie einen Kernteil eines Transformators durch etwas Einfacheres und Stärkeres ersetzen könnten? Forscher von Princeton, NYU und CMU präsentieren Derf. Sie haben die Standard-"Normalisierung"-Schicht durch eine einfache, elementweise Funktion namens Derf (basierend auf einer Gaußschen Fehlerfunktion) ersetzt. Sie drückt die Werte einfach sanft zusammen, um das Training stabil zu halten. Es übertrifft jetzt LayerNorm und die vorherige beste Alternative (DyT) in der Bilderkennung, der KI-Bilderzeugung und der DNA-Sequenzmodellierung. Stärkere Normalisierungsfreie Transformer Papier: Code: Unser Bericht: