Nový výzkum z programu Anthropic Fellows: Selektivní maskování GradienT (SGTM). Studujeme, jak trénovat modely tak, aby znalost o riziku (např. o nebezpečných zbraních) byla izolována do malé, samostatné sady parametrů, které lze odstranit, aniž by to výrazně ovlivnilo model.