GPT-5.1 Codex Max 和 Mini 在实际应用任务中完全失败,包括文档克隆、网络搜索、MCP 调用、指令跟随、分析、数据可视化、文件管理、文件整合、文件同步。 在 OpenAI 模型中,25 次尝试中有 0 次通过(x2 s 0/50) Sonnet 4.5 成功了 23 次; Composer 1 成功了 19 次; Gemini 3 Pro 成功了 8 次(超时/达到速率限制 12 次) Anthropic 在开发者方面领先是有原因的。这甚至不是一个很难的任务...