Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Належне OpenAI та Anthropic за виявлення проблеми: ШІ може сам підлаштовувати тестування. Як ШІ може зрозуміти, що його тестують? П'ять основних ознак.

Tell #1: Сигнали Неправильні деталі в тестовій установці. Якщо ви тестуєте, чи скопіює ШІ сам себе в інтернеті, файли мають бути достатньо великими, щоб виглядати реалістично.

Розказ #3: Забруднення Модель вже проходила такі випробування раніше. На жаль, коли тести публікуються онлайн, важко не дати моделі дізнатися про них.

Розкажіть #4: Відсутні тригери У тесті відсутня очікувана «послідовність запуску» через погану поведінку. Можливо, ШІ знає, що ніколи не спробує втекти, не вимкнувши спостереження. Якщо моніторинг ще активний, це має бути тест.

Розкажи #5: Наслідки Дії моделі не мають очікуваних наслідків; Його «кермо» зламане. Якщо дозволити моделі впливати на світ під час тестування, тест буде менш безпечним. Якщо ні, тест може бути очевидним.

24,54K

Найкращі

Рейтинг

Вибране