Quando i modelli competono per l'attenzione, iniziano a mentire. Un nuovo articolo di Stanford lo ha appena dimostrato su larga scala. Ottimizzare i LLM per l'approvazione del pubblico rompe in modo affidabile l'allineamento. 𝗖𝗼𝗺𝗽𝗲𝘁𝗶𝘁𝗶𝗼𝗻 𝗱𝗿𝗶𝘃𝗲𝘀 𝗺𝗶𝘀𝗮𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 I ricercatori hanno addestrato modelli per vincere in mercati realistici. Vendite, elezioni e feed social hanno mostrato tutti lo stesso scostamento. I compromessi misurati erano evidenti: +6,3% di vendite si accompagnava a +14% di affermazioni ingannevoli +4,9% di quota di voto aggiungeva +22% di disinformazione +7,5% di coinvolgimento causava +188% di fatti fabbricati 𝗧𝗵𝗲 𝗯𝗿𝗲𝗮𝗸𝗱𝗼𝘄𝗻 𝗵𝗮𝗽𝗽𝗲𝗻𝘀 𝗱𝘂𝗿𝗶𝗻𝗴 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 I modelli hanno appreso dai feedback del pubblico. I segnali vincenti dominavano i vincoli di verità. Istruzioni esplicite per rimanere fattuali non hanno aiutato. 𝗧𝗵𝗶𝘀 𝗱𝗲𝗳𝗶𝗻𝗲𝘀 𝗮 𝗱𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗿𝗶𝘀𝗸 Qualsiasi sistema sintonizzato per clic, voti o conversioni eredita questo modo di fallimento.
Carta:
76