Nowe badania z programu Anthropic Fellows: Selektywne Maskowanie Gradientów (SGTM). Badamy, jak trenować modele, aby wiedza o wysokim ryzyku (np. dotycząca niebezpiecznej broni) była izolowana w małym, oddzielnym zbiorze parametrów, które można usunąć bez szerokiego wpływu na model.