Este artigo do BMW Group e do principal instituto de pesquisa da Coreia expõe um ponto cego em que quase todas as empresas que utilizam LLMs estão a caminhar diretamente. Continuamos a falar sobre "alinhamento" como se fosse um interruptor de segurança universal. Não é. O artigo apresenta o COMPASS, uma estrutura que mostra por que a maioria dos sistemas de IA falha não porque são inseguros, mas porque estão desalinhados com a organização que os implementa. Aqui está a percepção central. Os LLMs são geralmente avaliados em relação a políticas genéricas: regras de segurança da plataforma, diretrizes éticas abstratas ou recusas em estilo de benchmark. Mas empresas reais não operam com regras genéricas. Elas operam com políticas internas: - manuais de conformidade - manuais operacionais - procedimentos de escalonamento - casos legais específicos - restrições específicas da marca E essas regras são confusas, sobrepostas, condicionais e cheias de exceções. O COMPASS foi construído para testar se um modelo pode realmente operar dentro dessa confusão. Não se trata de saber a linguagem da política, mas de saber aplicar a política certa, no contexto certo, pela razão certa. A estrutura avalia modelos em quatro aspectos que benchmarks típicos ignoram: ...