DeepSeek только что представил mHC (многофункциональные ограниченные гиперсвязи). Это элегантное изменение архитектуры позволяет Трансформерам работать с более широким «потоком мышления» (больше параллельных дорожек) без дестабилизации обучения. Это открывает более сильное рассуждение, лучшие показатели и более качественные результаты без простого увеличения количества GPU или FLOP для решения проблемы.