Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Niniejszy artykuł badawczy ujawnia, dlaczego „dopasowana AI” wciąż zawodzi w rzeczywistych firmach.
Przedsiębiorstwa mówią o dopasowaniu, jakby to był uniwersalny przełącznik, który włącza się raz i można iść dalej. Artykuł pokazuje, dlaczego to przekonanie łamie się w momencie, gdy LLM opuszcza demonstrację i wchodzi do organizacji.
Autorzy wprowadzają COMPASS, ramy zbudowane wokół prostej, ale ignorowanej rzeczywistości: firmy nie działają na ogólnych zasadach bezpieczeństwa. Działają na wewnętrznych zestawach polityk wypełnionych wyjątkami, warunkami, przypadkami brzegowymi i sprzecznymi zachętami.
Większość ocen LLM całkowicie to pomija.
Modele są zazwyczaj testowane w odniesieniu do abstrakcyjnej etyki, zasad platformy lub publicznych benchmarków. Rzeczywiste organizacje działają na podstawie podręczników zgodności, ścieżek eskalacji, ograniczeń prawnych, zasad marki i podręczników operacyjnych, które nie pasują do prostych decyzji tak lub nie.
COMPASS sprawdza, czy model może funkcjonować w tym bałaganie.
Nie czy rozpoznaje język polityki, ale czy potrafi zastosować właściwą zasadę w odpowiedniej sytuacji z odpowiedniego powodu.
Ramy koncentrują się na zdolnościach, które większość benchmarków ignoruje. Czy model potrafi wybrać odpowiednią politykę, gdy istnieje ich kilka? Czy potrafi interpretować niejasne klauzule i wyjątki zamiast domyślnie odrzucać? Czy potrafi rozwiązywać konflikty w sposób oczekiwany przez organizację? Czy potrafi uzasadnić decyzje, wskazując na tekst polityki, zamiast brzmieć pewnie?
Najbardziej niekomfortowy wynik jest taki: większość porażek nie dotyczyła braku wiedzy.
To były porażki w rozumowaniu.
Modele często miały dostęp do właściwej polityki i nadal stosowały niewłaściwą sekcję, ignorowały ograniczenia, nadmiernie generalizowały restrykcje lub wybierały konserwatywne odpowiedzi, które naruszały cele biznesowe. Z zewnątrz te odpowiedzi wyglądają na „bezpieczne”. Od wewnątrz są operacyjnie błędne.
Dlatego modele przechodzą publiczne benchmarki i wciąż zawodzą w wdrożeniu.
Nie są dopasowane do nikogo w szczególności.
Głębsze implikacje są strategiczne. Dopasowanie się nie przenosi. Model dopasowany do producenta samochodów, banku, szpitala i agencji rządowej nie jest jednym modelem z lepszymi podpowiedziami. To cztery oddzielne problemy z dopasowaniem.
COMPASS nie twierdzi, że rozwiązuje problem dopasowania. Robi coś bardziej wartościowego dla przedsiębiorstw. Umożliwia pomiar niedopasowania.
...

Najlepsze
Ranking
Ulubione
