I ricercatori di Stanford hanno sviluppato una nuova tecnica di prompting! Aggiungendo ~20 parole a un prompt, essa: - aumenta la creatività del LLM di 1.6-2x - aumenta la diversità valutata dagli umani del 25.7% - supera un modello fine-tuned senza alcun riaddestramento - ripristina il 66.8% della creatività persa dal LLM dopo l'allineamento I metodi di allineamento post-addestramento, come RLHF, sono progettati per rendere i LLM utili e sicuri. Tuttavia, questi metodi causano involontariamente un significativo calo nella diversità dell'output (chiamato collasso di modalità). Quando un LLM collassa a una modalità, inizia a favorire un insieme ristretto di risposte prevedibili o stereotipate rispetto ad altri output. Questo accade perché i dati di preferenza umana utilizzati per addestrare il LLM hanno un difetto nascosto chiamato bias di tipicità. Ecco come avviene: - Gli annotatori valutano diverse risposte da un LLM e, successivamente, il LLM viene addestrato utilizzando un modello di ricompensa per imitare queste preferenze umane. - Tuttavia, gli annotatori tendono naturalmente a favorire risposte che sono più familiari, facili da leggere e prevedibili. Questo è il bias di tipicità. Quindi, anche se una nuova risposta creativa è altrettanto valida, la preferenza umana tende spesso verso quella comune. A causa di ciò, il modello di ricompensa potenzia le risposte che il modello originale (pre-allineato) considerava già probabili. Questo affila aggressivamente la distribuzione di probabilità del LLM, collassando l'output creativo del modello a una o due risposte dominanti e altamente prevedibili. Detto ciò, non si tratta di un effetto irreversibile, e il LLM ha ancora due personalità dopo l'allineamento: - Il modello originale che ha appreso le ricche possibilità durante il pre-addestramento. - Il modello focalizzato sulla sicurezza, post-allineato....