„Szkolenie oparte na wynikach utrzyma łańcuchy myślenia w uczciwości.” Niestety, NIE. Pokazujemy, że szkolenie tylko na *wyniku* może nadal powodować, że modele ukrywają niepożądane zachowanie w swoim łańcuchu myślenia. Zespół MATS 8.0 Shard przedstawia: 🧵