Både GPT-5.1 Codex Max og Mini mislykkes fullstendig i faktisk anvendte oppgaver som involverer dokumentkloning, nettsøk, MCP-kall, instruksjonsoppfølging, analyse, datavisualisering, filhåndtering, filkonsolidering og synkronisering av filer. 0 av 25 (x2 s 0/50) forsøk med OpenAI-modeller har bestått Sonett 4.5 lyktes 23 ganger; Komponist 1 fulgte 19x; Gemini 3 Pro lyktes 8 ganger (tidsbegrenset/begrenset hastighetsgrenser 12 ganger) Det er en grunn til at Anthropic leder med utviklerne. Dette er ikke engang en så vanskelig oppgave...