GPT-5.1 Codex MaxとMiniの両方は、ドキュメントのクローン作成、ウェブ検索、MCP呼び出し、命令追従、分析、データ可視化、ファイル管理、ファイル統合、同期といった実際の作業で完全に失敗しています。 OpenAIモデルを使った25回中0件(x2 s 0/50)が合格しました ソネット4.5は23回成功しました。 作曲家1は19回成功しました。 Gemini 3 Proは8倍成功(タイムアウト/速度制限は12倍) Anthropicが開発者をリードする理由があります。これはそんなに難しいことじゃないのに...