DeepSeek vừa công bố mHC (Kết nối siêu hạn chế đa dạng). Đây là một điều chỉnh kiến trúc tinh tế cho phép Transformers chạy một "dòng suy nghĩ" rộng hơn (nhiều làn song song hơn) mà không làm mất ổn định quá trình đào tạo. Nó mở ra khả năng suy luận mạnh mẽ hơn, các tiêu chuẩn đánh giá tốt hơn và đầu ra chất lượng cao hơn mà không chỉ đơn giản là tăng thêm GPU hoặc FLOPs cho vấn đề.