来自Anthropic Fellows Program的新研究:选择性梯度屏蔽(SGTM)。 我们研究如何训练模型,使得高风险知识(例如关于危险武器的知识)被隔离在一小组独立的参数中,这些参数可以被移除而不会广泛影响模型。