Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformator i Mieszanka Ekspertów w LLM, wyjaśnione wizualnie!
Mieszanka Ekspertów (MoE) to popularna architektura, która wykorzystuje różnych ekspertów do poprawy modeli Transformatorów.
Transformator i MoE różnią się w bloku dekodera:
- Transformator używa sieci feed-forward.
- MoE używa ekspertów, którzy są sieciami feed-forward, ale mniejszymi w porównaniu do tych w Transformatorze.
Podczas wnioskowania wybierany jest podzbiór ekspertów. To sprawia, że wnioskowanie jest szybsze w MoE.
Ponadto, ponieważ sieć ma wiele warstw dekodera:
- Tekst przechodzi przez różnych ekspertów w różnych warstwach.
- Wybrani eksperci różnią się również między tokenami.
Ale jak model decyduje, którzy eksperci powinni być idealni?
Router to robi.
Jest to klasyfikator wieloklasowy, który produkuje wyniki softmax dla ekspertów, aby wybrać najlepszych K ekspertów.
Router jest trenowany razem z siecią i uczy się wybierać najlepszych ekspertów.
Ale to nie jest proste.
Są wyzwania!
Wyzwanie 1) Zauważ ten wzór na początku treningu:
...
Najlepsze
Ranking
Ulubione
