Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Трансформеры и смесь экспертов в LLM, объясненные визуально!
Смесь экспертов (MoE) — это популярная архитектура, которая использует различных экспертов для улучшения моделей трансформеров.
Трансформер и MoE различаются в блоке декодера:
- Трансформер использует полносвязную сеть.
- MoE использует экспертов, которые являются полносвязными сетями, но меньше по сравнению с трансформерами.
Во время вывода выбирается подмножество экспертов. Это делает вывод быстрее в MoE.
Кроме того, поскольку сеть имеет несколько слоев декодера:
- Текст проходит через различных экспертов на разных слоях.
- Выбранные эксперты также различаются между токенами.
Но как модель решает, какие эксперты должны быть идеальными?
Это делает маршрутизатор.
Это многоклассовый классификатор, который производит softmax-оценки по экспертам, чтобы выбрать лучших K экспертов.
Маршрутизатор обучается вместе с сетью, и он учится выбирать лучших экспертов.
Но это не просто.
Существуют проблемы!
Проблема 1) Обратите внимание на этот шаблон в начале обучения:
...
Топ
Рейтинг
Избранное
