本日、Nomos 1をオープンソース化します。パラメータはわずか30Bですが、今年の世界で最も権威ある数学コンペティションの一つであるPutnamで87/120のスコアを獲得しています。 このスコアは2024年に#2/3988にランクされ、SOTA AI数学者を育成するための@hillclimbaiの第一歩となります。
Nomos 1は87/120で8つの満点スコアを記録し、Qwen3-30ba3b-Thinking-2507は同じハーネスで同じ条件で24/120のスコアを得ており、このパフォーマンスはハーネス自体よりもトレーニング後のトレーニングやデータの質によるものであることを示しています。
提出作品は、人間のプットナム・トップ200出場者によってブラインドグレーディングされ、匿名化された提出物が与えられました。 グレーディングのために人間の注釈者に送られた正確なファイルは、ここで匿名化されていないものと、それらを生成するためのランブックも含めて公開されています 私たちは競技者と同じ時間制限を使い、2つのパートそれぞれ3時間ずつでした。
私たちのオープンソース推論システムは、解決フェーズから構成されており、作業員は最も解決の少ない問題に挑戦し自己評価を行い、その後に最終決定フェーズが行われ、提出物を統合して各問題の最終提出物を選びます。Qwen3のデフォルトのサンプリングパラメータを使用し、システムプロンプトは使っていません。
ここでモデルをオープンソース化し、推論を活用しています。 このモデルは、@theemozillaと@dmayhem93が構築したインフラを@rogershijinが訓練し、@nullvaluetensorの助言と@teknium・@theemozillaのリーダーシップのもとで行われました。
118.09K