Forscher der Stanford-Universität haben eine neue Aufforderungstechnik entwickelt! Durch das Hinzufügen von ~20 Wörtern zu einer Aufforderung: - steigert die Kreativität des LLM um 1,6-2x - erhöht die von Menschen bewertete Vielfalt um 25,7% - übertrifft ein feinabgestimmtes Modell ohne erneutes Training - stellt 66,8% der verlorenen Kreativität des LLM nach der Ausrichtung wieder her Methoden zur Nachtraining-Ausrichtung, wie RLHF, sind darauf ausgelegt, LLMs hilfreich und sicher zu machen. Diese Methoden führen jedoch unbeabsichtigt zu einem signifikanten Rückgang der Ausgabediversität (genannt Modus-Kollaps). Wenn ein LLM in einen Modus kollabiert, beginnt es, eine enge Auswahl an vorhersehbaren oder stereotypen Antworten gegenüber anderen Ausgaben zu bevorzugen. Dies geschieht, weil die menschlichen Präferenzdaten, die zum Trainieren des LLM verwendet werden, einen versteckten Fehler namens Typikalitätsbias aufweisen. So geschieht das: - Annotatoren bewerten verschiedene Antworten von einem LLM, und später wird das LLM mit einem Belohnungsmodell trainiert, um diese menschlichen Präferenzen nachzuahmen. - Annotatoren neigen jedoch natürlich dazu, Antworten zu bevorzugen, die vertrauter, leicht zu lesen und vorhersehbar sind. Das ist der Typikalitätsbias. Selbst wenn eine neue, kreative Antwort genauso gut ist, neigt die menschliche Präferenz oft zur gängigen Antwort. Aufgrund dessen verstärkt das Belohnungsmodell Antworten, die das ursprüngliche (vor der Ausrichtung) Modell bereits als wahrscheinlich erachtete. Dies schärft die Wahrscheinlichkeitsverteilung des LLM aggressiv, wodurch die kreative Ausgabe des Modells auf ein oder zwei dominante, hoch vorhersehbare Antworten kollabiert. Das gesagt, ist es kein irreversibler Effekt, und das LLM hat nach der Ausrichtung immer noch zwei Persönlichkeiten: - Das ursprüngliche Modell, das die reichen Möglichkeiten während des Vortrainings gelernt hat. - Das sicherheitsorientierte, nach der Ausrichtung trainierte Modell....