Этот исследовательский документ раскрывает, почему «выравненный ИИ» продолжает терпеть неудачи в реальных компаниях. Предприятия говорят о выравнивании, как о универсальном переключателе, который вы включаете один раз и забываете. Документ показывает, почему это убеждение рушится в тот момент, когда LLM покидает демонстрацию и входит в организацию. Авторы представляют COMPASS, структуру, построенную вокруг простой, но игнорируемой реальности: компании не работают по общим правилам безопасности. Они работают на основе внутренних политик, наполненных исключениями, условиями, крайними случаями и противоречивыми стимулами. Большинство оценок LLM полностью игнорируют это. Модели обычно тестируются на абстрактной этике, правилах платформы или публичных бенчмарках. Реальные организации работают на основе руководств по соблюдению, путей эскалации, юридических ограничений, правил бренда и операционных пособий, которые не вписываются в простые решения «да» или «нет». COMPASS проверяет, может ли модель функционировать в этом хаосе. Не в том, распознает ли она язык политики, а в том, может ли она применить правильное правило в правильной ситуации по правильной причине. Структура сосредоточена на возможностях, которые большинство бенчмарков игнорируют. Может ли модель выбрать правильную политику, когда существует несколько? Может ли она интерпретировать неопределенные пункты и исключения, вместо того чтобы автоматически отказываться? Может ли она разрешать конфликты так, как ожидает организация? Может ли она обосновывать решения, ссылаясь на текст политики, а не звуча уверенно? Самый неудобный результат таков: большинство неудач не были связаны с отсутствием знаний. Это были ошибки в рассуждениях. Модели часто имели доступ к правильной политике и все равно применяли неправильный раздел, игнорировали ограничения, обобщали ограничения или выбирали консервативные ответы, которые противоречили бизнес-целям. Снаружи эти ответы выглядят «безопасными». Изнутри они операционно неверны. Вот почему модели проходят публичные бенчмарки и все равно терпят неудачу при развертывании. Они не выровнены ни под кого конкретно. Глубокий вывод стратегический. Выравнивание не передается. Модель, выровненная для автопроизводителя, банка, больницы и государственного учреждения, не является одной моделью с лучшими подсказками. Это четыре отдельных проблемы выравнивания. COMPASS не утверждает, что решает проблему выравнивания. Она делает нечто более ценное для предприятий. Она делает несоответствие измеримым. ...