Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformateur et Mélange d'Experts dans les LLMs, expliqués visuellement !
Le Mélange d'Experts (MoE) est une architecture populaire qui utilise différents experts pour améliorer les modèles de Transformateur.
Le Transformateur et le MoE diffèrent dans le bloc décodeur :
- Le Transformateur utilise un réseau de neurones à propagation avant.
- Le MoE utilise des experts, qui sont des réseaux de neurones à propagation avant mais plus petits par rapport à ceux du Transformateur.
Lors de l'inférence, un sous-ensemble d'experts est sélectionné. Cela rend l'inférence plus rapide dans le MoE.
De plus, comme le réseau a plusieurs couches de décodeur :
- Le texte passe par différents experts à travers les couches.
- Les experts choisis diffèrent également entre les tokens.
Mais comment le modèle décide-t-il quels experts devraient être idéaux ?
Le routeur s'en charge.
C'est un classificateur multi-classe qui produit des scores softmax sur les experts pour sélectionner les meilleurs K experts.
Le routeur est entraîné avec le réseau, et il apprend à sélectionner les meilleurs experts.
Mais ce n'est pas simple.
Il y a des défis !
Défi 1) Remarquez ce schéma au début de l'entraînement :
...
Meilleurs
Classement
Favoris
