Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformer e Mixture of Experts negli LLM, spiegati visivamente!
Mixture of Experts (MoE) è un'architettura popolare che utilizza diversi esperti per migliorare i modelli Transformer.
Transformer e MoE differiscono nel blocco decoder:
- Il Transformer utilizza una rete feed-forward.
- MoE utilizza esperti, che sono reti feed-forward ma più piccole rispetto a quelle del Transformer.
Durante l'inferenza, viene selezionato un sottoinsieme di esperti. Questo rende l'inferenza più veloce in MoE.
Inoltre, poiché la rete ha più strati decoder:
- Il testo passa attraverso diversi esperti tra gli strati.
- Gli esperti scelti differiscono anche tra i token.
Ma come decide il modello quali esperti dovrebbero essere ideali?
Il router lo fa.
È un classificatore multi-classe che produce punteggi softmax sugli esperti per selezionare i migliori K esperti.
Il router viene addestrato con la rete e impara a selezionare i migliori esperti.
Ma non è semplice.
Ci sono delle sfide!
Sfida 1) Nota questo schema all'inizio dell'addestramento:
...
Principali
Ranking
Preferiti
