PutnamBenchの15件の誤った形式化(ベンチマークの約2%)が修正されました。これはLogical Intelligenceが提供してくれた変更で、Aleph Proverシステムによって特定されました(偶然にも、現在PBリーダーボードで最も強力なアプローチです)!