🚨 突發消息:DeepSeek 剛剛在 Transformer 架構中推出了一項根本性的改進 首席執行官梁文峰在作者名單上 巨鯨回來了 🐋
論文 "mHC: Manifold-Constrained Hyper-Connections" 提出了一個框架,以增強變壓器中的超連接。 它使用流形投影來恢復身份映射,解決訓練不穩定性、可擴展性限制和內存開銷。 主要好處包括在大規模模型中提高性能和效率,如實驗所示。
88