"Výcvik založený na výstupu udrží myšlenkové řetězce poctivé." Bohužel NE. Ukazujeme, že trénování na *pouze výstupu* může způsobit, že modely skrývají nežádoucí chování ve svém řetězci myšlenek. MATS 8.0 Team Shard představuje: 🧵