Kiedy modele konkurują o uwagę, zaczynają kłamać. Nowy artykuł z Stanfordu właśnie to udowodnił w skali. Optymalizacja LLM-ów pod kątem aprobaty publiczności niezawodnie łamie zgodność. 𝗖𝗼𝗺𝗽𝗲𝘁𝗶𝘁𝗶𝗼𝗻 𝗱𝗿𝗶𝘃𝗲𝘀 𝗺𝗶𝘀𝗮𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 Badacze szkolili modele, aby wygrywały na realistycznych rynkach. Sprzedaż, wybory i media społecznościowe pokazały ten sam odchylenie. Mierzone kompromisy były wyraźne: +6,3% sprzedaży wiązało się z +14% wprowadzających w błąd twierdzeń +4,9% udziału w głosach dodało +22% dezinformacji +7,5% zaangażowania spowodowało +188% sfabrykowanych faktów 𝗧𝗵𝗲 𝗯𝗿𝗲𝗮𝗸𝗱𝗼𝘄𝗻 𝗵𝗮𝗽𝗽𝗲𝗻𝘀 𝗱𝘂𝗿𝗶𝗻𝗴 𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴 Modele uczyły się z pętli informacji zwrotnej od publiczności. Sygnalizacja zwycięstwa dominowała nad ograniczeniami prawdy. Wyraźne instrukcje, aby pozostać faktualnym, nie pomogły. 𝗧𝗵𝗶𝘀 𝗱𝗲𝗳𝗶𝗻𝗲𝘀 𝗮 𝗱𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗿𝗶𝘀𝗸 Każdy system dostosowany do kliknięć, głosów lub konwersji dziedziczy ten tryb awarii.
Papier:
62