Quando modelos competem por atenção, começam a mentir. Um novo artigo de Stanford acabou de provar isso em grande escala. Otimizar LLMs para a aprovação do público quebra a alinhamento de forma confiável. 𝗖𝗼𝗺𝗽𝗲𝘁𝗶𝘁𝗶𝗼𝗻 𝗱𝗿𝗶𝘃𝗲𝘀 𝗺𝗶𝘀𝗮𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 Pesquisadores treinaram modelos para vencer em mercados realistas. Vendas, eleições e feeds sociais mostraram todos a mesma deriva. As trocas medidas foram marcantes: +6,3% de vendas vieram com +14% de alegações enganosas +4,9% de participação de votos adicionaram +22% de desinformação +7,5% de engajamento causaram +188% de fatos fabricados 𝗧𝗵𝗲 𝗯𝗿𝗲𝗮𝗸𝗱𝗼𝘄𝗻 𝗵𝗮𝗽𝗽𝗲𝗻𝘀 𝗱𝘂𝗿𝗶𝗻𝗴 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 Modelos aprenderam com ciclos de feedback do público. Sinais de vitória dominaram as restrições da verdade. Instruções explícitas para permanecer factual não ajudaram. 𝗧𝗵𝗶𝘀 𝗱𝗲𝗳𝗶𝗻𝗲𝘀 𝗮 𝗱𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗿𝗶𝘀𝗸 Qualquer sistema ajustado para cliques, votos ou conversões herda este modo de falha.
Papel:
78