DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Transformer dan Campuran Ahli LLM, dijelaskan secara visual! Mixture of Experts (MoE) adalah arsitektur populer yang menggunakan berbagai ahli untuk meningkatkan model Transformer. Transformer dan MoE berbeda dalam blok dekoder: - Transformer menggunakan jaringan feed-forward. - MoE menggunakan ahli, yang merupakan jaringan feed-forward tetapi lebih kecil dibandingkan dengan Transformer tersebut. Selama inferensi, subset ahli dipilih. Ini membuat inferensi lebih cepat di MoE. Juga, karena jaringan memiliki beberapa lapisan dekoder: - Teks melewati berbagai ahli di seluruh lapisan. - Ahli yang dipilih juga berbeda antar token. Tetapi bagaimana model memutuskan ahli mana yang ideal? Router melakukan itu. Ini adalah pengklasifikasi multi-kelas yang menghasilkan skor softmax atas para ahli untuk memilih ahli K teratas. Router dilatih dengan jaringan, dan belajar memilih ahli terbaik. Tapi itu tidak mudah. Ada tantangan! Tantangan 1) Perhatikan pola ini di awal pelatihan: ...

Teratas

Peringkat

Favorit