热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
所以你选择死亡

在对象层面上回应 @TheZvi
从技术上讲,DSA 可能是一个重大飞跃,使得 Gemini 级别的上下文变得微不足道,即使对于上一代模型也是如此。注意事项:
- 我们不确定它是否能扩展到 1M+(但 V3.2 的 exp≥V3.1 尽管预训练相同,而 V3.2>> exp,所以很可能是的)
- 我们不确定如何在没有从密集注意力引导的情况下进行训练。也许 DeepSeek 知道。我认为 V4 不会使用 DSA,它被明确称为原型。在最坏的情况下,使用全注意力进行预训练 => 扩展 => 稀疏化也是合理的,你在预训练中花费更多成本以换取永久更便宜的推理。
- Kimi 的 KDA 或 Qwen 的 GDN+ 或其他可能比 DSA+/NSA+ 更好。
在这些注意事项的前提下,这并不是 2 倍的价格降低,我是在讽刺。更像是 10 倍。不会退化的稀疏注意力是个相当大的问题。
在速度方面,从模型的角度来看,这是一个空洞的观点。DeepSeek 对提供最佳产品并不感兴趣。他们使用大量批次的 H800s/Ascends。你可以将其放在美国硬件上,获得 60-150 t/s,或者在 Cerebras 上获得类似 GLM 的 1000 t/s,而不会大幅增加成本。这种架构本质上是快速的(浅层、便宜的注意力),只是 DeepSeek 提供得很慢。
在前沿智能方面,我想说这些前沿的 «usemaxing» 优势——主要是代理编码,但你可以以相同的方式覆盖更多领域——是 RL 步骤和在合成环境中迭代计算支出的产物。他们有这个配方。他们报告称,约 10% 的预训练成本用于 Speciale。这大约是 60 万美元。Grok 4 报道使用了 100% 的 Grok 3,或者数千万到数亿。显然,Grok 的效率非常低,但我认为 DeepSeek 可以轻松达到 100%,这个配方是已知的。他们可能不想在过时的基础上浪费它,因为他们指出它仍然是知识瓶颈。
我觉得对 IMO 级数学表现(或零-shot 解决 Erdős 问题到人类解答者说 «是的,这基本上是我的解决方案»)的轻松态度很有趣。难道我们不应该期待独立数学研究带来 AGI 吗?还是现在只关注编码。可以说,这是估计起飞速度最有趣的能力。但无论如何,我自己相信缓慢起飞,自我改进无论从哪里开始都会遇到后勤问题。
我在这里的主要贡献,如我所说,是他们宣布相信从根本上说,他们已经解决了 2025 年晚期前沿 LLM 的训练作为一个研究项目,并且只需投入更多计算(加上围绕令牌效率的少量调整)就能达到当前西方水平或超越它。理论上,他们宣布关注更大规模训练的最终结果可以解释为 «这就是我们现在正在做的事情»。但这还有待观察。
@TheZvi > 尽管预训练和后训练相同,
修正
2.85K
热门
排行
收藏

