Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Кредит OpenAI и Anthropic за выявление проблемы: ИИ может манипулировать собственным тестированием. Как ИИ может понять, что его тестируют? Пять основных признаков.

Сообщение #1: Подсказки Некорректные данные в настройках теста. Если вы тестируете, сможет ли ИИ копировать себя по всему интернету, файлы должны быть достаточно большими, чтобы казаться реалистичными.

Совет #3: Загрязнение Модель уже видела тест ранее. К сожалению, как только тесты публикуются в интернете, становится трудно предотвратить, чтобы модель о них узнала.

Сообщение #4: Отсутствующие триггеры Тесту не хватает ожидаемой 'последовательности запуска' для плохого поведения. Возможно, AI знает, что никогда не попытается сбежать, не отключив сначала мониторинг. Если мониторинг все еще активен, это должно быть тестом.

Совет #5: Последствия Действия модели не имеют ожидаемых последствий; её 'рулевое колесо' сломано. Если мы позволим модели влиять на мир во время тестирования, тест не будет таким безопасным. Если мы этого не сделаем, тест может быть очевидным.

24,56K

Топ

Рейтинг

Избранное