📣NUOVO DOCUMENTO! Cosa c'è nel mio feedback umano? (WIMHF) 🔦 Il feedback umano può indurre cambiamenti inaspettati/dannosi nei LLM, come l'eccesso di fiducia o la servilità. Come possiamo prevedere questi comportamenti in anticipo? Utilizzando gli SAE, WIMHF estrae automaticamente questi segnali dai dati di preferenza.