Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformer und Mixture of Experts in LLMs, visuell erklärt!
Mixture of Experts (MoE) ist eine beliebte Architektur, die verschiedene Experten nutzt, um Transformer-Modelle zu verbessern.
Transformer und MoE unterscheiden sich im Decoder-Block:
- Transformer verwendet ein Feed-Forward-Netzwerk.
- MoE verwendet Experten, die Feed-Forward-Netzwerke sind, aber kleiner im Vergleich zu denen von Transformer.
Während der Inferenz wird eine Teilmenge von Experten ausgewählt. Dies macht die Inferenz in MoE schneller.
Außerdem, da das Netzwerk mehrere Decoder-Schichten hat:
- Der Text durchläuft verschiedene Experten über die Schichten hinweg.
- Die gewählten Experten unterscheiden sich auch zwischen den Tokens.
Aber wie entscheidet das Modell, welche Experten ideal sein sollten?
Das macht der Router.
Es ist ein Multi-Class-Klassifikator, der Softmax-Werte über Experten produziert, um die besten K Experten auszuwählen.
Der Router wird mit dem Netzwerk trainiert und lernt, die besten Experten auszuwählen.
Aber es ist nicht einfach.
Es gibt Herausforderungen!
Herausforderung 1) Beachten Sie dieses Muster zu Beginn des Trainings:
...
Top
Ranking
Favoriten
