Transformateur et Mélange d'Experts dans les LLMs, expliqués visuellement ! Le Mélange d'Experts (MoE) est une architecture populaire qui utilise différents experts pour améliorer les modèles de Transformateur. Le Transformateur et le MoE diffèrent dans le bloc décodeur : - Le Transformateur utilise un réseau de neurones à propagation avant. - Le MoE utilise des experts, qui sont des réseaux de neurones à propagation avant mais plus petits par rapport à ceux du Transformateur. Lors de l'inférence, un sous-ensemble d'experts est sélectionné. Cela rend l'inférence plus rapide dans le MoE. De plus, comme le réseau a plusieurs couches de décodeur : - Le texte passe par différents experts à travers les couches. - Les experts choisis diffèrent également entre les tokens. Mais comment le modèle décide-t-il quels experts devraient être idéaux ? Le routeur s'en charge. C'est un classificateur multi-classe qui produit des scores softmax sur les experts pour sélectionner les meilleurs K experts. Le routeur est entraîné avec le réseau, et il apprend à sélectionner les meilleurs experts. Mais ce n'est pas simple. Il y a des défis ! Défi 1) Remarquez ce schéma au début de l'entraînement : ...