Transformer a Mix expertů na LLM, vysvětleno vizuálně! Mix of Experts (MoE) je populární architektura, která využívá různé experty ke zlepšení modelů Transformerů. Transformer a MoE se liší v dekodérovém bloku: - Transformátor používá síť s předným směrem. - MoE používá experty, což jsou feed-forward sítě, ale menší než Transformery. Během inference je vybrána podmnožina expertů. To zrychluje inferenci v MoE. A protože síť má více dekodérových vrstev: - Text prochází různými odborníky napříč vrstvami. - Vybraní experti se také liší mezi žetony. Ale jak model rozhoduje, kteří experti by měli být ideální? Router to dělá. Jedná se o klasifikátor s více třídami, který vytváří softmax skóre nad experty a vybírá nejlepší K experty. Router je trénován na síti a učí se vybírat ty nejlepší odborníky. Ale není to jednoduché. Jsou tu výzvy! Výzva 1) Všimněte si tohoto vzoru na začátku tréninku: ...