Claude Opus 4.5 sale hoy. Es de vanguardia en programación, agentes y uso del ordenador, y significativamente mejor en tareas cotidianas como producir hojas de cálculo y diapositivas. Esto es lo que estamos viendo:
El feedback constante de los testers internos es que simplemente "lo entiende". Trata la ambigüedad, las razones sobre los compromisos sin que se le ayude de la mano. Tareas que para el Soneto 4.5 eran casi imposibles ahora están al alcance.
Por ejemplo, damos a los candidatos de ingeniería del rendimiento un examen para hacer en casa notoriamente difícil. Dentro del límite de 2 horas, Opus 4.5 obtuvo una puntuación superior a la de cualquier candidato humano.
Además, es mucho más eficiente. En SWE-bench Verified a esfuerzo medio, Opus 4.5 supera a Sonnet 4.5 mientras usa un 76% menos de tokens de salida. El nuevo parámetro de esfuerzo te permite intercambiar inteligencia por coste/latencia con un solo dial.
295.36K