Nuove ricerche dal Programma Fellows di Anthropic: Mascheramento Gradiente Selettivo (SGTM). Studiamo come addestrare i modelli affinché le conoscenze ad alto rischio (ad es. riguardo a armi pericolose) siano isolate in un piccolo insieme separato di parametri che possono essere rimossi senza influenzare ampiamente il modello.