私たちのAleph証明エージェントは、PutnamBenchで#1に到達しました。これはPutnam問題から作られたベンチマークで、大学レベルの数学オリンピアードの中で最も難しいものの一つで、機械でチェックされた証明で完全に形式化され、人間の関与はありません。プットナム問題はIMOの問題よりも難しいとされ、微積分、数論、群論、その他の数学の核心分野など幅広いテーマを網羅しています。 これは、AIが正確性保証付きの深層的で多段階の推論を扱える強力な証拠です。これは、私たちが形式的な論理を必要とする実際のソフトウェア、ハードウェア、科学的発見の検証に使っているのと同じ技術です。