Tämä tutkimuspaperi paljastaa, miksi "linjassa oleva tekoäly" epäonnistuu jatkuvasti oikeissa yrityksissä. Yritykset puhuvat linjauksesta kuin se olisi universaali kytkin, jota käännetään kerran ja siirrytään eteenpäin. Artikkeli osoittaa, miksi tämä uskomus murtuu heti, kun LLM lähtee demosta ja siirtyy organisaatioon. Kirjoittajat esittelevät COMPASSin, kehyksen, joka rakentuu yksinkertaisen mutta sivuutetun todellisuuden ympärille: yritykset eivät toimi yleisten turvallisuussääntöjen mukaan. Ne toimivat sisäisillä politiikkapinoilla, jotka ovat täynnä poikkeuksia, ehtoja, poikkeustapauksia ja ristiriitaisia kannustimia. Useimmat LLM-arvioinnit jättävät tämän kokonaan huomiotta. Malleja testataan yleensä abstraktien etiikan, alustasääntöjen tai julkisten vertailukriteerien perusteella. Todelliset organisaatiot toimivat vaatimustenmukaisuusohjeiden, eskalointipolkujen, lakirajoitteiden, brändisääntöjen ja operatiivisten pelikirjojen mukaan, jotka eivät sovi selkeästi kyllä- tai ei-päätöksiin. COMPASS testaa, voiko malli toimia tuon sekasorron sisällä. Ei sitä, tunnustaako se politiikan kieltä, vaan sitä, voiko se soveltaa oikeaa sääntöä oikeassa tilanteessa oikeasta syystä. Kehys keskittyy kyvykkyyksiin, joita useimmat benchmarkit jättävät huomiotta. Voiko malli valita oikean vakuutuksen, kun useita on olemassa? Voiko se tulkita epämääräisiä ehtoja ja poikkeuksia sen sijaan, että se automaattisesti käyttäisi yleisiä hylkäyksiä? Voiko se ratkaista konfliktit organisaation odotustavalla tavalla? Voiko se perustella päätöksiä viittaamalla politiikkatekstiin sen sijaan, että kuulostaisi itsevarmalta? Epämiellyttävin lopputulos on tämä: useimmat epäonnistumiset eivät johtuneet tiedon puutteesta. He olivat järkeilyn epäonnistumisia. Malleilla oli usein pääsy oikeaan politiikkaan, mutta ne sovelsivat silti väärää osaa, jättivät huomiotta rajoitukset, yleistivät rajoituksia tai valitsivat konservatiivisia vastauksia, jotka rikkoivat liiketoiminnan tavoitteita. Ulkopuolelta katsottuna nuo vastaukset näyttävät "turvallisilta". Sisältä katsottuna he ovat operatiivisesti väärässä. Siksi mallit läpäisevät julkiset benchmarkit, mutta epäonnistuvat silti käyttöönotossa. Ne eivät ole sidoksissa kehenkään erityiseen. Syvempi johtopäätös on strateginen. Kohdistus ei siirry toisiinsa. Malli, joka on suunnattu autonvalmistajalle, pankille, sairaalalle tai viranomaiselle, ei ole yksi malli, jolla olisi paremmat kehotteet. Kyse on neljästä erillisestä kohdistusongelmasta. COMPASS ei väitä ratkaisevansa kohdistusta. Se tekee yrityksille jotain arvokkaampaa. Se tekee epäkohdistuksesta mitattavissa. ...