🚨 СРОЧНО: DeepSeek только что представил фундаментальное улучшение в архитектуре Transformer Генеральный директор Вэньфэн Лянь в списке авторов WHALE ВЕРНУЛСЯ 🐋
Статья "mHC: Гипер-соединения с ограничениями многообразия" предлагает структуру для улучшения гипер-соединений в трансформерах. Она использует проекции многообразия для восстановления идентификационного отображения, решая проблемы нестабильности обучения, ограничения масштабируемости и избыточности памяти. Ключевые преимущества включают улучшение производительности и эффективности в масштабных моделях, как показано в экспериментах.
82