Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I ricercatori di Stanford hanno sviluppato una nuova tecnica di prompting!
Aggiungendo ~20 parole a un prompt, essa:
- aumenta la creatività del LLM di 1.6-2x
- aumenta la diversità valutata dagli umani del 25.7%
- supera un modello fine-tuned senza alcun riaddestramento
- ripristina il 66.8% della creatività persa dal LLM dopo l'allineamento
I metodi di allineamento post-addestramento, come RLHF, sono progettati per rendere i LLM utili e sicuri.
Tuttavia, questi metodi causano involontariamente un significativo calo nella diversità dell'output (chiamato collasso di modalità).
Quando un LLM collassa a una modalità, inizia a favorire un insieme ristretto di risposte prevedibili o stereotipate rispetto ad altri output.
Questo accade perché i dati di preferenza umana utilizzati per addestrare il LLM hanno un difetto nascosto chiamato bias di tipicità.
Ecco come avviene:
- Gli annotatori valutano diverse risposte da un LLM e, successivamente, il LLM viene addestrato utilizzando un modello di ricompensa per imitare queste preferenze umane.
- Tuttavia, gli annotatori tendono naturalmente a favorire risposte che sono più familiari, facili da leggere e prevedibili. Questo è il bias di tipicità.
Quindi, anche se una nuova risposta creativa è altrettanto valida, la preferenza umana tende spesso verso quella comune.
A causa di ciò, il modello di ricompensa potenzia le risposte che il modello originale (pre-allineato) considerava già probabili.
Questo affila aggressivamente la distribuzione di probabilità del LLM, collassando l'output creativo del modello a una o due risposte dominanti e altamente prevedibili.
Detto ciò, non si tratta di un effetto irreversibile, e il LLM ha ancora due personalità dopo l'allineamento:
- Il modello originale che ha appreso le ricche possibilità durante il pre-addestramento.
- Il modello focalizzato sulla sicurezza, post-allineato....

Principali
Ranking
Preferiti

