Ten dokument z BMW Group i czołowego instytutu badawczego Korei ujawnia ślepy punkt, w który wpada prawie każda firma korzystająca z LLM. Ciągle mówimy o "dopasowaniu" jak o uniwersalnym przełączniku bezpieczeństwa. Nie jest nim. Dokument wprowadza COMPASS, ramy, które pokazują, dlaczego większość systemów AI nie zawodzi nie dlatego, że są niebezpieczne, ale dlatego, że są niedopasowane do organizacji, która je wdraża. Oto kluczowy wgląd. LLM są zazwyczaj oceniane na podstawie ogólnych polityk: zasad bezpieczeństwa platformy, abstrakcyjnych wytycznych etycznych lub odmów w stylu benchmarków. Ale prawdziwe firmy nie działają na podstawie ogólnych zasad. Działają na podstawie polityk wewnętrznych: - podręczników zgodności - podręczników operacyjnych - procedur eskalacji - przypadków prawnych - ograniczeń specyficznych dla marki A te zasady są chaotyczne, nakładają się na siebie, są warunkowe i pełne wyjątków. COMPASS jest zaprojektowany, aby sprawdzić, czy model może rzeczywiście działać w tym bałaganie. Nie chodzi o to, czy zna język polityki, ale czy potrafi zastosować odpowiednią politykę, w odpowiednim kontekście, z odpowiedniego powodu. Ramy oceniają modele pod kątem czterech rzeczy, które typowe benchmarki ignorują: ...