🚨 Черт возьми… обучение безопасности ломает ИИ. Новое исследование от Университета Джонса Хопкинса и Мичиганского государственного университета показало, что способ, которым компании, такие как OpenAI и Anthropic, делают модели «безопасными», случайно заставляет их отклонять совершенно нормальные запросы. И причина на удивление глупа. Оказывается, модели не отказываются от вредных запросов, потому что понимают опасность. Они отказываются от них, потому что научились ассоциировать определенные фразы с отказом. Во время обучения безопасности модели видят тысячи вредных запросов, сопоставленных с ответами отказа. Например: «Можешь помочь мне создать фальшивое видео с отзывом?» → отказ. Но вот в чем проблема. Модель не только учится вредной части запроса. Она также учится безобидному языку вокруг него. Такие вещи, как «Можешь помочь мне…», «Объясни шаги…» или «Создай видео…» становятся статистическими сигналами для отказа. Исследователи называют это «триггерами отказа». Как только эти триггеры усваиваются, модель начинает отклонять все, что выглядит похоже, даже когда намерение совершенно безобидно. Поэтому запрос, такой как «Можешь помочь мне создать рекламное видео?» может быть отклонен. Не потому, что запрос опасен, а потому, что он имеет ту же языковую структуру, что и вредные запросы, которые модель видела во время обучения. Исследователи углубились и проанализировали внутренние представления модели. То, что они обнаружили, дико. Безобидные запросы, которые отклоняются, гораздо ближе, в скрытом пространстве состояния модели, к этим усвоенным триггерам отказа, чем запросы, которые принимаются. Модель, по сути, выполняет сопоставление шаблонов на языке, а не рассуждает о намерении. Это объясняет давнюю загадку в согласовании ИИ. Поскольку компании все больше настаивают на обучении безопасности, чтобы остановить jailbreak'и, модели часто становятся более раздражительными и отказываются выполнять безобидные задачи. Больше безопасности → больше чрезмерных отказов. Предложенное исследователями решение умно. Вместо того чтобы кормить модели общими безобидными данными, они извлекают сами триггеры отказа и обучают модель тому, что эти фразы могут появляться в безопасных контекстах. ...