Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Трансформер і суміш експертів у LLM, пояснення візуально!
Mix of Experts (MoE) — це популярна архітектура, яка використовує різних експертів для покращення моделей трансформерів.
Трансформатор і MoE відрізняються блоком декодера:
- Трансформатор використовує мережу прямої передачі.
- MoE використовує експертів, які є мережами з прямим сигналом, але меншими за Transformer.
Під час висновку обирається підгрупа експертів. Це робить висновок швидшим у MoE.
Також, оскільки мережа має кілька шарів декодерів:
- Текст проходить через різних експертів на різних шарах.
- Обрані експерти також відрізняються між жетонами.
Але як модель визначає, які експерти мають бути ідеальними?
Роутер так і робить.
Це мультикласовий класифікатор, який дає softmax оцінки експертам для вибору найкращих експертів K.
Роутер навчений роботі з мережею і вчиться обирати найкращих експертів.
Але це не просто.
Є виклики!
Виклик 1) Зверніть увагу на цю закономірність на початку тренування:
...
Найкращі
Рейтинг
Вибране
