"Resultatbaserad träning håller tankekedjor ärliga." Tyvärr NEJ. Vi visar att träning på *bara output* fortfarande kan få modeller att dölja oönskat beteende i sin tankekedja. MATS 8.0 Team Shard presenterar: a 🧵