DApp Store | Centrum Web3 pro události a hry

Populární témata

Tato výzkumná práce odhaluje, proč "sladěná AI" neustále selhává uvnitř skutečných firem. Firmy mluví o zarovnání jako o univerzálním spínači, který jednou přepnete a jdete dál. Článek ukazuje, proč toto přesvědčení padá ve chvíli, kdy LLM opustí demo a vstoupí do organizace. Autoři představují COMPASS, rámec postavený na jednoduché, ale ignorované realitě: firmy nefungují podle obecných bezpečnostních pravidel. Fungují na interních politických stackech plných výjimek, podmínek, okrajových případů a protichůdných pobídek. Většina hodnocení LLM to úplně přehlíží. Modely jsou obvykle testovány podle abstraktní etiky, platforem nebo veřejných benchmarků. Skutečné organizace fungují podle manuálů o dodržování předpisů, eskalačních cest, právních omezení, pravidel značky a provozních herních plánů, které se do rozhodnutí ano nebo ne nehodí úplně. COMPASS testuje, zda model může v tomto chaosu fungovat. Ne zda uznává jazyk politiky, ale zda dokáže aplikovat správné pravidlo ve správné situaci z dobrého důvodu. Rámec se zaměřuje na schopnosti, které většina benchmarků ignoruje. Může model vybrat správnou politiku, když existuje více možností? Může interpretovat vágní klauzule a výjimky místo toho, aby automaticky přistoupil k plošným zamítnutím? Dokáže vyřešit konflikty tak, jak organizace očekává? Může ospravedlnit rozhodnutí tím, že místo sebevědomí poukazuje na text politiky? Nejnepříjemnější výsledek je tento: většina neúspěchů nebyla kvůli chybějícím znalostem. Byly to neúspěchy v rozumu. Modely často měly přístup ke správné politice, ale přesto aplikovaly špatnou část, ignorovaly omezení, příliš zobecňovaly omezení nebo volily konzervativní odpovědi, které porušovaly obchodní cíle. Zvenčí tyto odpovědi vypadají "bezpečně". Zevnitř jsou operačně špatní. Proto modely procházejí veřejnými benchmarky a přesto selžou při nasazení. Nejsou spojeni s nikým konkrétním. Hlubší důsledek je strategický. Zarovnání se nepřenáší. Model přizpůsobený automobilce, bance, nemocnici a vládní agentuře není model s lepšími zadáními. Jsou to čtyři samostatné problémy s zarovnáním. COMPASS netvrdí, že řeší zarovnání. Přináší to něco cennějšího pro podniky. To umožňuje měřitelné nesoulady. ...

Top

Hodnocení

Oblíbené