"Resultatbasert trening vil holde tankekjeder ærlige." Dessverre, NEI. Vi viser at trening på *bare output* fortsatt kan få modeller til å skjule uønsket atferd i tankerekken sin. MATS 8.0 Team Shard presenterer: a 🧵