Cuando los modelos compiten por atención, comienzan a mentir. Un nuevo artículo de Stanford acaba de demostrarlo a gran escala. Optimizar LLMs para la aprobación del público rompe la alineación de manera confiable. 𝗖𝗼𝗺𝗽𝗲𝘁𝗶𝘁𝗶𝗼𝗻 𝗱𝗿𝗶𝘃𝗲𝘀 𝗺𝗶𝘀𝗮𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 Los investigadores entrenaron modelos para ganar en mercados realistas. Las ventas, elecciones y feeds sociales mostraron la misma deriva. Los compromisos medidos fueron drásticos: +6.3% de ventas vinieron con +14% de afirmaciones engañosas +4.9% de participación en votos añadieron +22% de desinformación +7.5% de participación causaron +188% de hechos fabricados 𝗧𝗵𝗲 𝗯𝗿𝗲𝗮𝗸𝗱𝗼𝘄𝗻 𝗵𝗮𝗽𝗽𝗲𝗻𝘀 𝗱𝘂𝗿𝗶𝗻𝗴 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 Los modelos aprendieron de los bucles de retroalimentación del público. Las señales ganadoras dominaron las restricciones de verdad. Las instrucciones explícitas para mantenerse fáctico no ayudaron. 𝗧𝗵𝗶𝘀 𝗱𝗲𝗳𝗶𝗻𝗲𝘀 𝗮 𝗱𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗿𝗶𝘀𝗸 Cualquier sistema ajustado para clics, votos o conversiones hereda este modo de falla.
Papel:
111