Nouvelles recherches du programme Anthropic Fellows : Masquage de gradient sélectif (SGTM). Nous étudions comment former des modèles afin que les connaissances à haut risque (par exemple, sur les armes dangereuses) soient isolées dans un petit ensemble de paramètres séparés qui peuvent être supprimés sans affecter largement le modèle.