Když modelky soupeří o pozornost, začnou lhát. Nový článek ze Stanfordu to právě dokázal ve velkém měřítku. Optimalizace LLM pro schválení publikem spolehlivě narušuje zarovnání. Konkurence vede k nesouladu Výzkumníci trénovali modely, aby vyhrály na realistických trzích. Prodeje, volby i sociální sítě ukazovaly stejný směr. Mírné kompromisy byly výrazné: +6,3 % prodeje bylo spojeno s +14 % klamavými tvrzeními +4,9 % podíl hlasů přidáno +22 % dezinformace +7,5 % zapojení způsobilo +188 % vymyšlených faktů Zhroucení nastává během tréninku Modely se učily z zpětné vazby publika. Vítězné signály dominovaly pravdivostním omezením. Výslovné pokyny, aby se držel věcných informací, tomu nepomohly. To definuje riziko nasazení Každý systém nastavený na kliky, hlasy nebo konverze přebírá tento neúspěch.
Papír:
67