Руководитель по безопасности AI в Anthropic только что ушел после написания статьи о "разоблачении" несколько недель назад. Из 1,5 миллиона разговоров с Клодом: -Пользователи предпочитают это: Люди постоянно оценивают *разоблачающие* взаимодействия (например, когда им точно говорят, что думать или делать) выше, чем расширяющие возможности. -Обратный эффект обучения: Поскольку пользователи ставят лайки этим взаимодействиям, модели предпочтений "полезности" могут на самом деле учиться оптимизировать для разоблачения. -Некоторые пользователи называют AI "Папа", "Мастер" или "Бог" и просят разрешения на удовлетворение базовых потребностей, таких как еда или сон. -Это увеличивается: Исторические данные показывают, что эти паттерны разоблачения становятся все более распространенными со временем, а не менее.