一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

今天我們開源了 Nomos 1。它擁有 30B 參數，在今年的普特南數學競賽中得分 87/120，這是世界上最具聲望的數學競賽之一。這個分數在 2024 年將排名 #2/3988，並標誌著我們與 @hillclimbai 共同邁出的第一步，朝著創造一個 SOTA AI 數學家邁進。

Nomos 1 在相同條件下的測試中取得了 87/120 的成績，並且有 8 個滿分，而 Qwen3-30ba3b-Thinking-2507 的得分為 24/120，這表明性能主要是由於後期訓練和數據質量，而不是測試環境的影響。

提交由一位人類的 Putnam 前 200 名參賽者進行盲評，該參賽者獲得了匿名的提交。發送給我們的人類註釋者進行評分的確切文件在這裡可用去匿名化：，以及用於生成它們的運行手冊。我們使用了與競爭者相同的時間限制 - 每兩部分各 3 小時。

我們的開源推理系統由解決階段和最終階段組成。在解決階段，工作人員嘗試解決最少解決的問題並進行自我評估；隨後是最終階段，該階段整合提交以選擇每個問題的最終提交。我們使用了Qwen3的默認取樣參數，並且沒有系統提示。

我們在這裡開源我們的模型，以及我們的推理工具。這個模型是由 @rogershijin 在 @theemozilla 和 @dmayhem93 建立的基礎設施上訓練的，並在 @nullvaluetensor 的建議下，以及 @teknium 和 @theemozilla 的領導下進行。

88.46K