DeepSeek 剛剛推出了 mHC(多重約束超連接)。這是一個精巧的架構調整,讓 Transformers 能夠運行更寬的「思考流」(更多的平行通道),而不會使訓練不穩定。 它解鎖了更強的推理能力、更好的基準測試和更高質量的輸出,而不僅僅是簡單地增加更多的 GPU 或 FLOPs 來解決問題。