Este artigo do BMW Group e do principal instituto de pesquisa da Coreia expõe um ponto cego no qual quase toda empresa que usa LLMs está entrando diretamente. A gente vive falando de "alinhamento" como se fosse um interruptor de segurança universal. Não é. O artigo apresenta o COMPASS, uma estrutura que mostra por que a maioria dos sistemas de IA falha não porque sejam inseguros, mas porque estão desalinhados com a organização que os implanta. Aqui está o insight principal. LLMs geralmente são avaliados em relação a políticas genéricas: regras de segurança de plataformas, diretrizes éticas abstratas ou recusas no estilo benchmark. Mas empresas reais não funcionam com regras genéricas. Eles funcionam com políticas internas: - manuais de conformidade - manuais operacionais - procedimentos de escalonamento - casos limites legais - restrições específicas de marca E essas regras são confusas, sobrepostas, condicionais e cheias de exceções. O COMPASS foi feito para testar se um modelo realmente pode operar dentro dessa bagunça. Não se ela conhece a linguagem das políticas, mas se pode aplicar a política certa, no contexto certo, pelo motivo certo. O framework avalia modelos com base em quatro aspectos que benchmarks típicos ignoram: ...