esto subestima drásticamente los saltos de rendimiento entre GPT-4 y Opus 4.5, y cómo esos saltos de rendimiento "alisaron" problemas que se acumularían en todo, desde CoT hasta la llamada de funciones