热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
DeepSeek 刚刚发布了一篇精彩的论文,以总结 2025 年
"mHC: 多重约束超连接"
超连接将变压器中的单一残差“高速公路”转变为 n 条并行车道,每一层学习如何在车道之间洗牌和共享信号。
但是,如果每一层可以任意放大或缩小车道,那么这些洗牌在深度上的乘积会导致信号/梯度爆炸或消失。
因此,他们强制每次洗牌都要保持质量守恒:一个双随机矩阵(非负,每一行/列的和为 1)。每一层只能在车道之间重新分配信号,而不能创造或消灭信号,因此深度跳过路径保持稳定,同时特征仍然混合!
当 n=4 时,增加了 ~6.7% 的训练时间,但最终损失减少了 ~0.02,并且保持最坏情况下的反向增益约为 ~1.6(与没有约束的 ~3000 相比),在各个基准测试中都取得了一致的胜利。

热门
排行
收藏
