Эта статья DeepMind тихо развенчала самый утешительный миф в безопасности ИИ. Идея о том, что безопасность заключается в том, как модели ведут себя большую часть времени, кажется разумной. Но она также ошибочна в момент, когда системы масштабируются. DeepMind показывает, почему средние значения перестают иметь значение, когда развертывание достигает миллионов взаимодействий. Статья переосмысляет безопасность AGI как проблему распределения. Важно не типичное поведение. Важно хвост. Редкие сбои. Пограничные случаи. События с низкой вероятностью, которые кажутся игнорируемыми в тестах, но становятся неизбежными в реальном мире. Бенчмарки, красные команды и демонстрации все выбирают среднее. Развертывание охватывает все. Странные пользователи, необычные стимулы, враждебные обратные связи, среды, к которым никто не готовился. В масштабах эти случаи перестают быть редкими. Они гарантированы. Вот неудобное осознание: прогресс может сделать системы более безопасными, в то время как тихо делает их более опасными. Если возможности растут быстрее, чем контроль за хвостом, видимые сбои уменьшаются, в то время как катастрофический риск накапливается за кадром. Две модели могут выглядеть идентично в среднем и при этом сильно различаться в поведении в худшем случае. Текущие оценки не могут увидеть этот разрыв. Рамки управления предполагают, что могут. Вы не можете сертифицировать безопасность с помощью конечных тестов, когда риск заключается в смещении распределения. Вы никогда не тестируете систему, которую на самом деле развертываете. Вы выбираете будущее, которое не контролируете. Вот настоящий вывод. Безопасность AGI не является атрибутом модели. Это проблема систем. Контекст развертывания, стимулы, мониторинг и то, сколько риска хвоста общество готово терпеть, имеют большее значение, чем чистые средние. Эта статья не успокаивает. Она убирает иллюзию. Вопрос не в том, ведет ли себя модель обычно хорошо. Важно, что происходит, когда она этого не делает — и как часто это допускается, прежде чем масштаб сделает это неприемлемым. Статья: