📣¡PAPEL NUEVO! ¿Qué hay en mi retroalimentación humana? (WIMHF) 🔦 La retroalimentación humana puede inducir cambios inesperados / dañinos en los LLM, como exceso de confianza o adulación. ¿Cómo podemos pronosticar estos comportamientos con anticipación? Usando SAE, WIMHF extrae automáticamente estas señales de los datos de preferencia.