热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
DeepSeek 的重大发布。
这对开源 LLM 来说是个大事件。
DeepSeek-V3.2-Speciale 在 2025 年国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)上与 Gemini-3-Pro 不相上下。
它在多个基准测试中甚至超越了 Gemini 3 Pro。
DeepSeek 确定了三个关键瓶颈:
> 在长序列上受阻的普通注意机制,
> 不足的后训练计算,
> 以及在代理场景中的弱泛化。
他们推出了 DeepSeek-V3.2,这是一种同时解决这三个问题的模型。
一个关键创新是 DeepSeek 稀疏注意(DSA),它将注意复杂度从 O(L²) 降低到 O(Lk),其中 k 远小于序列长度。一个轻量级的 "闪电索引器" 评分哪些标记重要,然后只有这些前 k 个标记获得完全注意。
结果:在长上下文中显著加速,而不牺牲性能。
但仅靠架构是不够的。DeepSeek 分配的后训练计算超过了预训练成本的 10%,这是一个巨大的 RL 投资,直接转化为推理能力。
对于代理任务,他们构建了一个自动环境合成管道,生成了 1,827 个不同的任务环境和 85,000 多个复杂提示。代码代理、搜索代理和一般规划任务(所有任务都在规模上合成以进行 RL 训练)
数字:在 AIME 2025 上,DeepSeek-V3.2 达到 93.1%(GPT-5-High:94.6%)。在 SWE-Verified 上,解决率为 73.1%。在 HLE 仅文本上,25.1% 对比 GPT-5 的 26.3%。
他们的高计算变体 DeepSeek-V3.2-Speciale 更进一步,在 IMO 2025 中获得金牌(35/42 分),IOI 2025(492/600),以及 ICPC 世界总决赛 2025(解决 10/12 个问题)。
这是第一个能够在推理、编码和代理基准测试中与前沿专有系统进行可信竞争的开放模型。

热门
排行
收藏

