Neue Forschung aus dem Anthropic Fellows Program: Selektives Gradienten-Maskieren (SGTM). Wir untersuchen, wie man Modelle trainiert, sodass risikobehaftetes Wissen (z. B. über gefährliche Waffen) in einem kleinen, separaten Satz von Parametern isoliert wird, die entfernt werden können, ohne das Modell umfassend zu beeinträchtigen.