Transformer en Mixture of Experts in LLM's, visueel uitgelegd! Mixture of Experts (MoE) is een populaire architectuur die verschillende experts gebruikt om Transformer-modellen te verbeteren. Transformer en MoE verschillen in de decoderblok: - Transformer gebruikt een feed-forward netwerk. - MoE gebruikt experts, die feed-forward netwerken zijn maar kleiner in vergelijking met die van Transformer. Tijdens inferentie wordt een subset van experts geselecteerd. Dit maakt inferentie sneller in MoE. Bovendien, aangezien het netwerk meerdere decoderlagen heeft: - De tekst gaat door verschillende experts over de lagen. - De gekozen experts verschillen ook tussen tokens. Maar hoe beslist het model welke experts ideaal moeten zijn? De router doet dat. Het is een multi-class classifier die softmax-scores over experts produceert om de top K experts te selecteren. De router wordt samen met het netwerk getraind, en het leert de beste experts te selecteren. Maar het is niet eenvoudig. Er zijn uitdagingen! Uitdaging 1) Let op dit patroon aan het begin van de training: ...