熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
今天我們開源了 Nomos 1。它擁有 30B 參數,在今年的普特南數學競賽中得分 87/120,這是世界上最具聲望的數學競賽之一。
這個分數在 2024 年將排名 #2/3988,並標誌著我們與 @hillclimbai 共同邁出的第一步,朝著創造一個 SOTA AI 數學家邁進。

Nomos 1 在相同條件下的測試中取得了 87/120 的成績,並且有 8 個滿分,而 Qwen3-30ba3b-Thinking-2507 的得分為 24/120,這表明性能主要是由於後期訓練和數據質量,而不是測試環境的影響。

提交由一位人類的 Putnam 前 200 名參賽者進行盲評,該參賽者獲得了匿名的提交。
發送給我們的人類註釋者進行評分的確切文件在這裡可用去匿名化:,以及用於生成它們的運行手冊。
我們使用了與競爭者相同的時間限制 - 每兩部分各 3 小時。
我們的開源推理系統由解決階段和最終階段組成。在解決階段,工作人員嘗試解決最少解決的問題並進行自我評估;隨後是最終階段,該階段整合提交以選擇每個問題的最終提交。我們使用了Qwen3的默認取樣參數,並且沒有系統提示。

我們在這裡開源我們的模型,以及我們的推理工具。
這個模型是由 @rogershijin 在 @theemozilla 和 @dmayhem93 建立的基礎設施上訓練的,並在 @nullvaluetensor 的建議下,以及 @teknium 和 @theemozilla 的領導下進行。
88.46K
熱門
排行
收藏

