Належне OpenAI та Anthropic за виявлення проблеми: ШІ може сам підлаштовувати тестування. Як ШІ може зрозуміти, що його тестують? П'ять основних ознак.
Tell #1: Сигнали Неправильні деталі в тестовій установці. Якщо ви тестуєте, чи скопіює ШІ сам себе в інтернеті, файли мають бути достатньо великими, щоб виглядати реалістично.
Розказ #3: Забруднення Модель вже проходила такі випробування раніше. На жаль, коли тести публікуються онлайн, важко не дати моделі дізнатися про них.
Розкажіть #4: Відсутні тригери У тесті відсутня очікувана «послідовність запуску» через погану поведінку. Можливо, ШІ знає, що ніколи не спробує втекти, не вимкнувши спостереження. Якщо моніторинг ще активний, це має бути тест.
Розкажи #5: Наслідки Дії моделі не мають очікуваних наслідків; Його «кермо» зламане. Якщо дозволити моделі впливати на світ під час тестування, тест буде менш безпечним. Якщо ні, тест може бути очевидним.
24,54K