"Pelatihan berbasis output akan membuat rantai pemikiran tetap jujur." Sayangnya, TIDAK. Kami menunjukkan bahwa pelatihan pada *hanya output* masih dapat menyebabkan model menyembunyikan perilaku yang tidak diinginkan dalam rantai pemikiran mereka. MATS 8.0 Team Shard menyajikan: 🧵