Des chercheurs de Stanford ont développé une nouvelle technique de prompt ! En ajoutant ~20 mots à un prompt, cela : - augmente la créativité des LLM de 1,6 à 2 fois - augmente la diversité évaluée par des humains de 25,7 % - surpasse un modèle affiné sans aucune réentraînement - restaure 66,8 % de la créativité perdue des LLM après alignement Les méthodes d'alignement post-formation, telles que RLHF, sont conçues pour rendre les LLM utiles et sûrs. Cependant, ces méthodes provoquent involontairement une chute significative de la diversité des sorties (appelée effondrement de mode). Lorsqu'un LLM s'effondre sur un mode, il commence à privilégier un ensemble étroit de réponses prévisibles ou stéréotypées par rapport à d'autres sorties. Cela se produit parce que les données de préférence humaine utilisées pour former le LLM ont un défaut caché appelé biais de typicité. Voici comment cela se produit : - Les annotateurs évaluent différentes réponses d'un LLM, et plus tard, le LLM est formé à l'aide d'un modèle de récompense pour imiter ces préférences humaines. - Cependant, les annotateurs ont naturellement tendance à privilégier les réponses qui sont plus familières, faciles à lire et prévisibles. C'est le biais de typicité. Donc, même si une nouvelle réponse créative est tout aussi bonne, la préférence humaine penche souvent vers la réponse commune. En raison de cela, le modèle de récompense renforce les réponses que le modèle original (pré-aligné) considérait déjà comme probables. Cela aiguise agressivement la distribution de probabilité du LLM, faisant s'effondrer la sortie créative du modèle sur une ou deux réponses dominantes et hautement prévisibles. Cela dit, ce n'est pas un effet irréversible, et le LLM a toujours deux personnalités après l'alignement : - Le modèle original qui a appris les riches possibilités pendant la pré-formation. - Le modèle axé sur la sécurité, post-aligné....