DeepSeek刚刚推出了mHC(多重约束超连接)。这是一个巧妙的架构调整,使得变换器能够在不破坏训练稳定性的情况下运行更广泛的“思维流”(更多的并行通道)。 它解锁了更强的推理能力、更好的基准测试和更高质量的输出,而不仅仅是通过增加更多的GPU或FLOPs来解决问题。