Похоже, что Opus 4.5 запомнил MATH от Hendrycks (включая тестовый набор) и все предыдущие AIMEs тоже. Модель получает около 80-90% правильных ответов, когда выдает число сразу, без какого-либо обоснования. Это раздражает при экспериментах с математическими наборами данных...