Niniejszy artykuł badawczy ujawnia, dlaczego „dopasowana AI” wciąż zawodzi w rzeczywistych firmach. Przedsiębiorstwa mówią o dopasowaniu, jakby to był uniwersalny przełącznik, który włącza się raz i można iść dalej. Artykuł pokazuje, dlaczego to przekonanie łamie się w momencie, gdy LLM opuszcza demonstrację i wchodzi do organizacji. Autorzy wprowadzają COMPASS, ramy zbudowane wokół prostej, ale ignorowanej rzeczywistości: firmy nie działają na ogólnych zasadach bezpieczeństwa. Działają na wewnętrznych zestawach polityk wypełnionych wyjątkami, warunkami, przypadkami brzegowymi i sprzecznymi zachętami. Większość ocen LLM całkowicie to pomija. Modele są zazwyczaj testowane w odniesieniu do abstrakcyjnej etyki, zasad platformy lub publicznych benchmarków. Rzeczywiste organizacje działają na podstawie podręczników zgodności, ścieżek eskalacji, ograniczeń prawnych, zasad marki i podręczników operacyjnych, które nie pasują do prostych decyzji tak lub nie. COMPASS sprawdza, czy model może funkcjonować w tym bałaganie. Nie czy rozpoznaje język polityki, ale czy potrafi zastosować właściwą zasadę w odpowiedniej sytuacji z odpowiedniego powodu. Ramy koncentrują się na zdolnościach, które większość benchmarków ignoruje. Czy model potrafi wybrać odpowiednią politykę, gdy istnieje ich kilka? Czy potrafi interpretować niejasne klauzule i wyjątki zamiast domyślnie odrzucać? Czy potrafi rozwiązywać konflikty w sposób oczekiwany przez organizację? Czy potrafi uzasadnić decyzje, wskazując na tekst polityki, zamiast brzmieć pewnie? Najbardziej niekomfortowy wynik jest taki: większość porażek nie dotyczyła braku wiedzy. To były porażki w rozumowaniu. Modele często miały dostęp do właściwej polityki i nadal stosowały niewłaściwą sekcję, ignorowały ograniczenia, nadmiernie generalizowały restrykcje lub wybierały konserwatywne odpowiedzi, które naruszały cele biznesowe. Z zewnątrz te odpowiedzi wyglądają na „bezpieczne”. Od wewnątrz są operacyjnie błędne. Dlatego modele przechodzą publiczne benchmarki i wciąż zawodzą w wdrożeniu. Nie są dopasowane do nikogo w szczególności. Głębsze implikacje są strategiczne. Dopasowanie się nie przenosi. Model dopasowany do producenta samochodów, banku, szpitala i agencji rządowej nie jest jednym modelem z lepszymi podpowiedziami. To cztery oddzielne problemy z dopasowaniem. COMPASS nie twierdzi, że rozwiązuje problem dopasowania. Robi coś bardziej wartościowego dla przedsiębiorstw. Umożliwia pomiar niedopasowania. ...