¡Investigadores de Stanford crearon una nueva técnica de prompting! Al añadir ~20 palabras a un prompt, es: - aumenta la creatividad del LLM en 1,6-2x - aumenta la diversidad calificada como humano en un 25,7% - supera el modelo ajustado sin necesidad de reentrenamiento - restaura el 66,8% de la creatividad perdida de los LLM tras la alineación Los métodos de alineación post-entrenamiento, como el RLHF, están diseñados para que los LLMs sean útiles y seguros. Sin embargo, estos métodos provocan involuntariamente una caída significativa en la diversidad de salida (llamada colapso de modos). Cuando un LLM colapsa a un modo, empieza a favorecer un conjunto estrecho de respuestas predecibles o estereotipadas frente a otras salidas. Esto ocurre porque los datos de preferencia humana usados para entrenar el LLM tienen un fallo oculto llamado sesgo de típicidad. Así es como sucede esto: - Los anotadores valoran diferentes respuestas respecto a un LLM, y más adelante, el LLM se entrena usando un modelo de recompensa para imitar estas preferencias humanas. - Sin embargo, los anotadores tienden naturalmente a preferir respuestas más familiares, fáciles de leer y predecibles. Este es el sesgo típico. Así que, aunque una respuesta nueva y creativa sea igual de buena, la preferencia humana suele inclinarse hacia la común. Por ello, el modelo de recompensa potencia respuestas que el modelo original (prealineado) ya consideraba probables. Esto agudiza agresivamente la distribución de probabilidad del LLM, colapsando la producción creativa del modelo a una o dos respuestas dominantes y altamente predecibles. Dicho esto, no es un efecto irreversible, y el LLM sigue teniendo dos personalidades tras la alineación: - El modelo original que aprendió las ricas posibilidades durante el preentrenamiento. - El modelo centrado en la seguridad y alineado en post....