« L'entraînement basé sur la sortie gardera les chaînes de pensée honnêtes. » Malheureusement, NON. Nous montrons que s'entraîner uniquement sur *la sortie* peut encore amener les modèles à cacher des comportements indésirables dans leur chaîne de pensée. L'équipe MATS 8.0 Shard présente : un 🧵