Transformer dan Campuran Ahli LLM, dijelaskan secara visual! Mixture of Experts (MoE) adalah arsitektur populer yang menggunakan berbagai ahli untuk meningkatkan model Transformer. Transformer dan MoE berbeda dalam blok dekoder: - Transformer menggunakan jaringan feed-forward. - MoE menggunakan ahli, yang merupakan jaringan feed-forward tetapi lebih kecil dibandingkan dengan Transformer tersebut. Selama inferensi, subset ahli dipilih. Ini membuat inferensi lebih cepat di MoE. Juga, karena jaringan memiliki beberapa lapisan dekoder: - Teks melewati berbagai ahli di seluruh lapisan. - Ahli yang dipilih juga berbeda antar token. Tetapi bagaimana model memutuskan ahli mana yang ideal? Router melakukan itu. Ini adalah pengklasifikasi multi-kelas yang menghasilkan skor softmax atas para ahli untuk memilih ahli K teratas. Router dilatih dengan jaringan, dan belajar memilih ahli terbaik. Tapi itu tidak mudah. Ada tantangan! Tantangan 1) Perhatikan pola ini di awal pelatihan: ...