熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
DeepSeek 的重大版本發布。
這對開源 LLM 來說是一個大事件。
DeepSeek-V3.2-Speciale 在 2025 年國際數學奧林匹克(IMO)和國際資訊奧林匹克(IOI)上與 Gemini-3-Pro 不相上下。
它甚至在幾個基準測試中超越了 Gemini 3 Pro。
DeepSeek 確定了三個關鍵瓶頸:
> 在長序列上表現不佳的普通注意力機制,
> 不足的後訓練計算,
> 以及在代理場景中的弱泛化。
他們推出了 DeepSeek-V3.2,這是一個同時解決這三個問題的模型。
一個關鍵創新是 DeepSeek 稀疏注意力(DSA),它將注意力複雜度從 O(L²) 降低到 O(Lk),其中 k 遠小於序列長度。一個輕量級的 "閃電索引器" 評分哪些標記重要,然後只有這些 top-k 標記獲得完整的注意力。
結果:在長上下文中顯著加速而不犧牲性能。
但僅僅依靠架構是不夠的。DeepSeek 分配的後訓練計算超過了預訓練成本的 10%,這是一項巨大的強化學習投資,直接轉化為推理能力。
對於代理任務,他們建立了一個自動環境合成管道,生成 1,827 個不同的任務環境和 85,000 多個複雜提示。代碼代理、搜索代理和一般規劃任務(所有這些都是為強化學習訓練大規模合成的)
數據:在 AIME 2025 上,DeepSeek-V3.2 的得分為 93.1%(GPT-5-High:94.6%)。在 SWE-Verified 上,解決率為 73.1%。在 HLE 僅文本上,得分為 25.1%,而 GPT-5 的得分為 26.3%。
他們的高計算變體 DeepSeek-V3.2-Speciale 更進一步,在 IMO 2025 中獲得金牌(35/42 分),在 IOI 2025 中(492/600),以及在 ICPC 世界總決賽 2025 中(解決 10/12 題)。
這是第一個能夠在推理、編碼和代理基準上與前沿專有系統進行可信競爭的開放模型。

熱門
排行
收藏

