Transformer og Mixture of Experts i LLM-er, forklart visuelt! Mixture of Experts (MoE) er en populær arkitektur som bruker ulike eksperter for å forbedre transformatormodeller. Transformer og MoE skiller seg i dekoderblokken: - Transformatoren bruker et feedforward-nettverk. - MoE bruker eksperter, som er feedforward-nettverk, men mindre sammenlignet med Transformer-nettverkene. Under inferensen velges en undergruppe eksperter. Dette gjør slutningen raskere i MoE. Også, siden nettverket har flere dekoderlag: - Teksten går gjennom ulike eksperter på tvers av lag. - De valgte ekspertene varierer også mellom brikkene. Men hvordan avgjør modellen hvilke eksperter som skal være ideelle? Ruteren gjør det. Det er en multi-klasse klassifisator som produserer softmax-poeng over eksperter for å velge de beste K-ekspertene. Ruteren er trent med nettverket, og den lærer å velge de beste ekspertene. Men det er ikke enkelt. Det finnes utfordringer! Utfordring 1) Legg merke til dette mønsteret i starten av treningen: ...