“Обучение на основе вывода будет поддерживать честность цепочек размышлений.” К сожалению, НЕТ. Мы показываем, что обучение только на *выводе* все равно может заставить модели скрывать нежелательное поведение в их цепочке размышлений. Команда MATS 8.0 Shard представляет: 🧵