Denna artikel från BMW Group och Koreas främsta forskningsinstitut avslöjar en blind fläck som nästan alla företag som använder LLM:er går rakt in i. Vi pratar hela tiden om "justering" som om det vore en universell säkerhetsbrytare. Det är det inte. Artikeln introducerar COMPASS, ett ramverk som visar varför de flesta AI-system misslyckas inte för att de är osäkra, utan för att de inte stämmer överens med organisationen som implementerar dem. Här är kärninsikten. LLM:er utvärderas vanligtvis mot generiska policyer: plattformssäkerhetsregler, abstrakta etiska riktlinjer eller benchmark-liknande vägror. Men riktiga företag drivs inte av generiska regler. De drivs på interna policys: - Efterlevnadsmanualer - Operativa playbooks - eskaleringsprocedurer - juridiska undantagsfall - varumärkesspecifika begränsningar Och dessa regler är röriga, överlappande, villkorliga och fulla av undantag. COMPASS är byggt för att testa om en modell faktiskt kan fungera i det kaoset. Inte om den känner till policyspråket, utan om den kan tillämpa rätt policy, i rätt kontext, av rätt anledning. Ramverket utvärderar modeller utifrån fyra saker som typiska benchmarks ignorerar: ...