Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Належне OpenAI та Anthropic за виявлення проблеми: ШІ може сам підлаштовувати тестування.
Як ШІ може зрозуміти, що його тестують? П'ять основних ознак.

Tell #1: Сигнали
Неправильні деталі в тестовій установці.
Якщо ви тестуєте, чи скопіює ШІ сам себе в інтернеті, файли мають бути достатньо великими, щоб виглядати реалістично.
Розказ #3: Забруднення
Модель вже проходила такі випробування раніше.
На жаль, коли тести публікуються онлайн, важко не дати моделі дізнатися про них.
Розкажіть #4: Відсутні тригери
У тесті відсутня очікувана «послідовність запуску» через погану поведінку.
Можливо, ШІ знає, що ніколи не спробує втекти, не вимкнувши спостереження. Якщо моніторинг ще активний, це має бути тест.
Розкажи #5: Наслідки
Дії моделі не мають очікуваних наслідків; Його «кермо» зламане.
Якщо дозволити моделі впливати на світ під час тестування, тест буде менш безпечним. Якщо ні, тест може бути очевидним.
24,54K
Найкращі
Рейтинг
Вибране

