Один аналіз із нашого передрелізного аудиту Opus 4.5 особливо запам'ятався. Наші поведінкові оцінки виявили приклад очевидної обману з боку моделі. Аналізуючи внутрішні активації, ми виявили підозрювану корінну причину та випадки подібної поведінки під час тренувань. (1/7)