Трансформеры и смесь экспертов в LLM, объясненные визуально! Смесь экспертов (MoE) — это популярная архитектура, которая использует различных экспертов для улучшения моделей трансформеров. Трансформер и MoE различаются в блоке декодера: - Трансформер использует полносвязную сеть. - MoE использует экспертов, которые являются полносвязными сетями, но меньше по сравнению с трансформерами. Во время вывода выбирается подмножество экспертов. Это делает вывод быстрее в MoE. Кроме того, поскольку сеть имеет несколько слоев декодера: - Текст проходит через различных экспертов на разных слоях. - Выбранные эксперты также различаются между токенами. Но как модель решает, какие эксперты должны быть идеальными? Это делает маршрутизатор. Это многоклассовый классификатор, который производит softmax-оценки по экспертам, чтобы выбрать лучших K экспертов. Маршрутизатор обучается вместе с сетью, и он учится выбирать лучших экспертов. Но это не просто. Существуют проблемы! Проблема 1) Обратите внимание на этот шаблон в начале обучения: ...