📣NEUES PAPIER! Was ist in meinem menschlichen Feedback? (WIMHF) 🔦 Menschliches Feedback kann unerwartete/schädliche Veränderungen bei LLMs hervorrufen, wie Überheblichkeit oder Schmeichelei. Wie können wir diese Verhaltensweisen im Voraus vorhersagen? Mit SAEs extrahiert WIMHF automatisch diese Signale aus Präferenzdaten.