"Тренування на основі результату допоможе зберегти ланцюги думок чесними." На жаль, НІ. Ми показуємо, що тренування на *лише виході* все ще може змусити моделі приховувати небажану поведінку у своїй ланцюжку думок. MATS 8.0 Команда Shard представляє: a 🧵