Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformer og Mixture of Experts i LLM-er, forklart visuelt!
Mixture of Experts (MoE) er en populær arkitektur som bruker ulike eksperter for å forbedre transformatormodeller.
Transformer og MoE skiller seg i dekoderblokken:
- Transformatoren bruker et feedforward-nettverk.
- MoE bruker eksperter, som er feedforward-nettverk, men mindre sammenlignet med Transformer-nettverkene.
Under inferensen velges en undergruppe eksperter. Dette gjør slutningen raskere i MoE.
Også, siden nettverket har flere dekoderlag:
- Teksten går gjennom ulike eksperter på tvers av lag.
- De valgte ekspertene varierer også mellom brikkene.
Men hvordan avgjør modellen hvilke eksperter som skal være ideelle?
Ruteren gjør det.
Det er en multi-klasse klassifisator som produserer softmax-poeng over eksperter for å velge de beste K-ekspertene.
Ruteren er trent med nettverket, og den lærer å velge de beste ekspertene.
Men det er ikke enkelt.
Det finnes utfordringer!
Utfordring 1) Legg merke til dette mønsteret i starten av treningen:
...
Topp
Rangering
Favoritter
