Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Was wäre, wenn Sie einen Kernteil eines Transformators durch etwas Einfacheres und Stärkeres ersetzen könnten?
Forscher von Princeton, NYU und CMU präsentieren Derf.
Sie haben die Standard-"Normalisierung"-Schicht durch eine einfache, elementweise Funktion namens Derf (basierend auf einer Gaußschen Fehlerfunktion) ersetzt. Sie drückt die Werte einfach sanft zusammen, um das Training stabil zu halten.
Es übertrifft jetzt LayerNorm und die vorherige beste Alternative (DyT) in der Bilderkennung, der KI-Bilderzeugung und der DNA-Sequenzmodellierung.
Stärkere Normalisierungsfreie Transformer
Papier:
Code:
Unser Bericht:

Top
Ranking
Favoriten
