在 PutnamBench 中修复了 15 个误格式化(大约占基准的 2%),感谢 Logical Intelligence 贡献的更改,这些更改是通过他们的 Aleph Prover 系统识别的(恰好也是目前 PB 排行榜上最强的方案)!