Transformer e Mixture of Experts negli LLM, spiegati visivamente! Mixture of Experts (MoE) è un'architettura popolare che utilizza diversi esperti per migliorare i modelli Transformer. Transformer e MoE differiscono nel blocco decoder: - Il Transformer utilizza una rete feed-forward. - MoE utilizza esperti, che sono reti feed-forward ma più piccole rispetto a quelle del Transformer. Durante l'inferenza, viene selezionato un sottoinsieme di esperti. Questo rende l'inferenza più veloce in MoE. Inoltre, poiché la rete ha più strati decoder: - Il testo passa attraverso diversi esperti tra gli strati. - Gli esperti scelti differiscono anche tra i token. Ma come decide il modello quali esperti dovrebbero essere ideali? Il router lo fa. È un classificatore multi-classe che produce punteggi softmax sugli esperti per selezionare i migliori K esperti. Il router viene addestrato con la rete e impara a selezionare i migliori esperti. Ma non è semplice. Ci sono delle sfide! Sfida 1) Nota questo schema all'inizio dell'addestramento: ...