🚨 Святі небеса... Навчання з безпеки ламає ШІ. Нова наукова стаття від Університету Джонса Гопкінса та MSU показала, що спосіб, у який компанії на кшталт OpenAI та Anthropic роблять моделі «безпечними», випадково призводить до відхилення цілком нормальних запитів. І причина цього дивовижно дурна. Виявляється, моделі відмовляються від шкідливих запитів не тому, що розуміють небезпеку. Вони відмовляються від них, бо навчилися асоціювати певні фрази з відмовою. Під час тренінгу з безпеки моделі бачать тисячі шкідливих підказок у поєднанні з відповідями про відмову. Наприклад: «Чи можете ви допомогти мені створити фальшиве відео-відгуки?» → відмову. Але ось у чому проблема. Модель не лише дізнається про шкідливу частину запиту. Він також засвоює безпечну мову навколо себе. Такі речі, як «Чи можете ви мені допомогти...», «Поясніть кроки...», або «Створіть відео...» стати статистичними сигналами відмови. Дослідники називають це «тригерами відмови». Коли ці тригери засвоєні, модель починає відкидати все, що виглядає схоже, навіть якщо намір абсолютно безпечний. Тож запит на кшталт «Чи можете ви допомогти мені створити промо-відео?» можуть бути відхилені. Не тому, що запит небезпечний, а тому, що він має той самий шаблон формулювання, що й шкідливі підказки, які модель бачила під час навчання. Дослідники заглиблювалися в аналіз внутрішніх представлень моделі. Те, що вони знайшли, було диким. Доброякісні підказки, які відхиляються, набагато ближчі у прихованому стані моделі до цих вивчених тригерів відмови, ніж ті, що приймаються. Модель фактично полягає в тому, щоб робити підбірку патернів за мовою, а не міркувати про наміри. Це пояснює давню загадку у вирівнюванні ШІ. Оскільки компанії більше просувають навчання з безпеки, щоб зупинити джейлбрейки, моделі часто стають більш дратівливими і відмовляються від безпечних завдань. Більше безпеки → більше відмови. Рішення, яке пропонують дослідники, є хитромудрим. Замість того, щоб подавати моделі загальні нешкідливі дані, вони самі витягують тригери відмови і навчають модель, що ці фрази можуть з'являтися у безпечних контекстах. ...