我現在已經在後端任務中測試 Opus 4.5 和 GPT-5.1-Codex-Max 24 小時了,老實說,我無法決定明顯的勝者。 通常在比較模型時,勝者很快就會變得明顯。但這次不是。 測試仍在繼續。