Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Transformer và Mixture of Experts trong LLMs, được giải thích một cách trực quan!
Mixture of Experts (MoE) là một kiến trúc phổ biến sử dụng các chuyên gia khác nhau để cải thiện các mô hình Transformer.
Transformer và MoE khác nhau ở khối giải mã:
- Transformer sử dụng một mạng feed-forward.
- MoE sử dụng các chuyên gia, là các mạng feed-forward nhưng nhỏ hơn so với các mạng của Transformer.
Trong quá trình suy diễn, một tập hợp các chuyên gia được chọn. Điều này làm cho quá trình suy diễn nhanh hơn trong MoE.
Ngoài ra, vì mạng có nhiều lớp giải mã:
- Văn bản đi qua các chuyên gia khác nhau qua các lớp.
- Các chuyên gia được chọn cũng khác nhau giữa các token.
Nhưng làm thế nào mà mô hình quyết định chuyên gia nào là lý tưởng?
Router làm điều đó.
Nó là một bộ phân loại đa lớp sản xuất các điểm số softmax trên các chuyên gia để chọn ra K chuyên gia hàng đầu.
Router được đào tạo cùng với mạng, và nó học cách chọn các chuyên gia tốt nhất.
Nhưng điều đó không đơn giản.
Có những thách thức!
Thách thức 1) Chú ý đến mẫu này ở đầu quá trình đào tạo:
...
Hàng đầu
Thứ hạng
Yêu thích
