📣NYTT PAPIR! Hva er i min menneskelige tilbakemelding? (WIMHF) 🔦 Menneskelig tilbakemelding kan indusere uventede/skadelige endringer i LLM-er, som overdreven selvtillit eller sykofant. Hvordan kan vi forutsi denne atferden på forhånd? Ved hjelp av SAE-er trekker WIMHF automatisk ut disse signalene fra preferansedata.