Этот документ от BMW Group и ведущего исследовательского института Кореи выявляет слепую зону, в которую почти каждая компания, использующая LLM, идет напролом. Мы продолжаем говорить об "алигнменте", как о универсальном переключателе безопасности. Это не так. Документ представляет COMPASS, структуру, которая показывает, почему большинство AI-систем терпят неудачу не потому, что они небезопасны, а потому, что они не соответствуют организации, которая их развертывает. Вот основная идея. LLM обычно оцениваются по общим политикам: правилам безопасности платформы, абстрактным этическим рекомендациям или отказам в стиле бенчмарков. Но реальные компании не работают по общим правилам. Они работают по внутренним политикам: - руководствам по соблюдению - операционным пособиям - процедурам эскалации - юридическим крайним случаям - ограничениям, специфичным для бренда И эти правила запутанные, пересекающиеся, условные и полны исключений. COMPASS создан для того, чтобы проверить, может ли модель действительно работать в этом хаосе. Не знает ли она язык политики, а может ли она применить правильную политику в правильном контексте по правильной причине. Структура оценивает модели по четырем аспектам, которые типичные бенчмарки игнорируют: ...