「どれだけ少ないラインと小さな変更でこのSWEベンチ問題を解決できるか」という評価を求めて、OpenAIがヒルクライムで大変に進めるようにしています 今の私の仕事は、Codexの出力😭から約60%を削除することです