我們的 Aleph 證明者代理剛剛在 PutnamBench 上達到第 #1,這是一個基於 Putnam 問題建立的基準 - Putnam 問題是最難的大学数学奥林匹克之一 - 完全以機器檢查的證明形式化,且沒有任何人類參與。Putnam 問題通常被認為比 IMO 問題更難,涵蓋了廣泛的主題,包括微積分、數論、群論以及其他數學的核心領域。 這是強有力的證據,表明 AI 能夠處理深度的多步推理並提供正確性保證——這正是我們用來驗證真正的軟體、硬體和需要形式邏輯的科學發現的技術。