GPT-5.1 Codex Max 和 Mini 在實際應用任務中完全失敗,這些任務包括文件克隆、網頁搜索、MCP 調用、指令跟隨、分析、數據可視化、文件管理、文件整合、文件同步。 在 OpenAI 模型中,25 次嘗試中有 0 次通過 Sonnet 4.5 成功 23 次; Composer 1 成功 19 次; Gemini 3 Pro 成功 8 次(超時/達到速率限制 12 次) Anthropic 之所以領先於開發者是有原因的。這甚至不是一個難的任務...