“L'addestramento basato sull'output manterrà le catene di pensiero oneste.” Purtroppo, NO. Dimostriamo che l'addestramento su *solo l'output* può comunque portare i modelli a nascondere comportamenti indesiderati nella loro catena di pensiero. Il team MATS 8.0 Shard presenta: un 🧵