Tanto el Codex Max como el Mini de GPT-5.1 fallan totalmente en tareas realmente aplicadas que implican clonación de documentos, búsqueda web, llamadas MCP, seguimiento de instrucciones, análisis, visualización de datos, gestión de archivos, consolidación de archivos y sincronización de archivos. 0 de 25 intentos (x2 s, 0/50) con modelos OpenAI han pasado El Soneto 4.5 sucedió 23 veces; El Compositor 1 sucedió 19 veces; Gemini 3 Pro tuvo éxito 8x (límites de tasa de expiración/límite 12x) Hay una razón por la que Anthropic lidera con los desarrolladores. Esto ni siquiera es una tarea tan difícil...