我现在已经在过去的24小时内对Opus 4.5和GPT-5.1-Codex-Max在后端任务上进行了测试,老实说,我无法决定一个明确的赢家。 通常在比较模型时,赢家很快就会变得非常明显。但这次不是。 测试仍在继续。