Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformer a Mix expertů na LLM, vysvětleno vizuálně!
Mix of Experts (MoE) je populární architektura, která využívá různé experty ke zlepšení modelů Transformerů.
Transformer a MoE se liší v dekodérovém bloku:
- Transformátor používá síť s předným směrem.
- MoE používá experty, což jsou feed-forward sítě, ale menší než Transformery.
Během inference je vybrána podmnožina expertů. To zrychluje inferenci v MoE.
A protože síť má více dekodérových vrstev:
- Text prochází různými odborníky napříč vrstvami.
- Vybraní experti se také liší mezi žetony.
Ale jak model rozhoduje, kteří experti by měli být ideální?
Router to dělá.
Jedná se o klasifikátor s více třídami, který vytváří softmax skóre nad experty a vybírá nejlepší K experty.
Router je trénován na síti a učí se vybírat ty nejlepší odborníky.
Ale není to jednoduché.
Jsou tu výzvy!
Výzva 1) Všimněte si tohoto vzoru na začátku tréninku:
...
Top
Hodnocení
Oblíbené
