Anthropic Fellows Programの新しい研究:選択的グラデーションTマスキング(SGTM)。 私たちは、高リスクの知識(例えば危険な兵器に関する知識)を、モデルに大きく影響を与えずに除去できる小さな独立したパラメータセットにまとめてモデルをどのように訓練するかを研究しています。