Această lucrare de cercetare dezvăluie de ce "AI-ul aliniat" continuă să eșueze în cadrul companiilor reale. Companiile vorbesc despre aliniere ca pe un comutator universal pe care îl apeși o dată și mergi mai departe. Lucrarea arată de ce această credință se rupe în momentul în care un LLM părăsește o demonstrație și intră într-o organizație. Autorii introduc COMPASS, un cadru construit pe o realitate simplă, dar ignorată: companiile nu operează pe reguli generice de siguranță. Ele operează pe stive interne de politici pline de excepții, condiții, cazuri excepționale și stimulente contradictorii. Majoritatea evaluărilor LLM ratează complet acest aspect. Modelele sunt de obicei testate în funcție de etica abstractă, regulile platformelor sau repere publice. Organizațiile reale funcționează pe manuale de conformitate, căi de escaladare, constrângeri legale, reguli de brand și manuale operaționale care nu se potrivesc clar cu deciziile de tip da sau nu. COMPASS testează dacă un model poate funcționa în interiorul acestui haos. Nu dacă recunoaște limbajul politicilor, ci dacă poate aplica regula corectă în situația potrivită, din motivul potrivit. Framework-ul se concentrează pe capabilități pe care majoritatea benchmark-urilor le ignoră. Poate modelul să selecteze polița corectă atunci când există mai multe? Poate interpreta clauze vagi și excepții în loc să recurgă implicit la refuzuri generale? Poate rezolva conflictele așa cum se așteaptă organizația? Poate justifica deciziile indicând textul politicii în loc să pară încrezător? Cel mai inconfortabil rezultat este acesta: majoritatea eșecurilor nu au fost legate de lipsa cunoștințelor. Erau eșecuri de raționament. Modelele aveau adesea acces la politica corectă și totuși aplicau secțiunea greșită, ignorau constrângerile, generalizau excesiv sau alegeau răspunsuri conservatoare care încălcau obiectivele de business. Din exterior, aceste răspunsuri par "sigure". Din interior, sunt greșite din punct de vedere operațional. De aceea modelele trec benchmark-urile publice și tot eșuează la implementare. Nu sunt aliniați cu nimeni anume. Implicația mai profundă este strategică. Alinierea nu se transferă. Un model aliniat pentru un producător auto, o bancă, un spital și o agenție guvernamentală nu este un model cu indicații mai bune. Sunt patru probleme separate de aliniere. COMPASS nu pretinde că rezolvă alinierea. Face ceva mai valoros pentru companii. Face ca nealinierea să fie măsurabilă. ...