Dit document van de BMW Group en het beste onderzoeksinstituut van Korea onthult een blinde vlek waar bijna elke onderneming die LLM's gebruikt recht in loopt. We blijven praten over "alignment" alsof het een universele veiligheidsknop is. Dat is het niet. Het document introduceert COMPASS, een kader dat laat zien waarom de meeste AI-systemen falen, niet omdat ze onveilig zijn, maar omdat ze niet zijn afgestemd op de organisatie die ze inzet. Hier is de kerninzichten. LLM's worden meestal geëvalueerd op basis van generieke beleidsregels: platformveiligheidsregels, abstracte ethische richtlijnen of benchmark-achtige weigeringen. Maar echte bedrijven draaien niet op generieke regels. Ze draaien op interne beleidsregels: - compliancehandleidingen - operationele handboeken - escalatieprocedures - juridische randgevallen - merk-specifieke beperkingen En deze regels zijn rommelig, overlappend, voorwaardelijk en vol uitzonderingen. COMPASS is gebouwd om te testen of een model daadwerkelijk binnen die rommel kan opereren. Niet of het de beleids taal kent, maar of het het juiste beleid kan toepassen, in de juiste context, om de juiste reden. Het kader evalueert modellen op vier dingen die typische benchmarks negeren: ...