來自Anthropic Fellows Program的新研究:選擇性梯度遮罩(SGTM)。 我們研究如何訓練模型,使得高風險知識(例如有關危險武器的知識)被隔離在一小組獨立的參數中,這些參數可以被移除,而不會廣泛影響模型。