Sia GPT-5.1 Codex Max che Mini falliscono totalmente in compiti applicati che coinvolgono la clonazione di documenti, la ricerca sul web, le chiamate MCP, il seguire istruzioni, l'analisi, la visualizzazione dei dati, la gestione dei file, la consolidazione dei file, la sincronizzazione dei file. 0 su 25 (x2 s 0/50) tentativi con i modelli OpenAI sono stati superati Sonnet 4.5 ha avuto successo 23 volte; Composer 1 ha avuto successo 19 volte; Gemini 3 Pro ha avuto successo 8 volte (timeout/limiti di velocità raggiunti 12 volte) C'è un motivo per cui Anthropic guida con gli sviluppatori. Non è nemmeno un compito così difficile...