在 PutnamBench 中修正了 15 個錯誤的形式化(大約佔基準的 2%),感謝 Logical Intelligence 貢獻這些變更,這些變更是由他們的 Aleph Prover 系統識別的(恰好,目前也是 PB 排行榜上最強的方案)!