Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Transformator i Mieszanka Ekspertów w LLM, wyjaśnione wizualnie! Mieszanka Ekspertów (MoE) to popularna architektura, która wykorzystuje różnych ekspertów do poprawy modeli Transformatorów. Transformator i MoE różnią się w bloku dekodera: - Transformator używa sieci feed-forward. - MoE używa ekspertów, którzy są sieciami feed-forward, ale mniejszymi w porównaniu do tych w Transformatorze. Podczas wnioskowania wybierany jest podzbiór ekspertów. To sprawia, że wnioskowanie jest szybsze w MoE. Ponadto, ponieważ sieć ma wiele warstw dekodera: - Tekst przechodzi przez różnych ekspertów w różnych warstwach. - Wybrani eksperci różnią się również między tokenami. Ale jak model decyduje, którzy eksperci powinni być idealni? Router to robi. Jest to klasyfikator wieloklasowy, który produkuje wyniki softmax dla ekspertów, aby wybrać najlepszych K ekspertów. Router jest trenowany razem z siecią i uczy się wybierać najlepszych ekspertów. Ale to nie jest proste. Są wyzwania! Wyzwanie 1) Zauważ ten wzór na początku treningu: ...

Najlepsze

Ranking

Ulubione