Denne artikkelen fra BMW Group og Koreas ledende forskningsinstitutt avdekker en blindsone som nesten alle bedrifter som bruker LLM-er, går rett inn i. Vi snakker stadig om «justering» som om det var en universell sikkerhetsbryter. Det er det ikke. Artikkelen introduserer COMPASS, et rammeverk som viser hvorfor de fleste AI-systemer feiler ikke fordi de er usikre, men fordi de ikke er i samsvar med organisasjonen som implementerer dem. Her er kjerneinnsikten. LLM-er vurderes vanligvis opp mot generelle retningslinjer: plattformsikkerhetsregler, abstrakte etiske retningslinjer eller benchmark-lignende avslag. Men ekte selskaper opererer ikke etter generiske regler. De kjører på interne retningslinjer: - Etterlevelsesmanualer - Operative spillbøker - eskaleringsprosedyrer - juridiske grensesaker - merkespesifikke begrensninger Og disse reglene er rotete, overlappende, betingede og fulle av unntak. COMPASS er laget for å teste om en modell faktisk kan operere inne i det kaoset. Ikke om den kjenner til policy-språket, men om den kan anvende riktig policy, i riktig kontekst, av riktig grunn. Rammeverket evaluerer modeller på fire ting som typiske referansepunkter ignorerer: ...