Mi pila de modelos tras los 8 días más salvajes en IA: Opus 4.5: La mayoría de las tareas diarias de código en las que sé cómo quiero que el modelo haga lo que quiero. Rápido, limpio, fiable, pero a menudo empieza a escribir código antes de captar todo el contexto que necesita (mide una vez, corta dos). Codex-Max: Tareas de código más grandes y difíciles (especialmente backend) donde no quiero prescribir la mejor manera de hacer algo. Explora antes de actuar, así que suele ser más fiable (mide dos veces, corta una vez). GPT-5.1 Pro: Planificación profunda, investigación, trabajo de alto riesgo (de nuevo, especialmente backend) donde no puedo permitirme equivocarme. Si no quiero tener que lidiar con corregir errores sutiles, recurro a GPT-5.1 Pro. Simplemente acierta a la primera (pero es muy lento y se queda atascado en la interfaz de ChatGPT). Gemini 3 Pro: Redacción, razonamiento general y diseño de interfaz. Mejor para hacer que los frontends parezcan pulidos en lugar de basura de IA, pero menos fiables que otros en tareas generales de código.