Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ця наукова робота пояснює, чому «узгоджений ШІ» постійно зазнає невдач у реальних компаніях.
Підприємства говорять про узгодження як універсальний вимикач, який можна перемикати один раз і рухатися далі. У статті показано, чому це переконання руйнується в момент, коли LLM виходить із демонстрації і приходить в організацію.
Автори представляють COMPASS — фреймворк, побудований навколо простої, але ігнорованої реальності: компанії не працюють за загальними правилами безпеки. Вони працюють на внутрішніх стеках політик, заповнених винятками, умовними, крайніми випадками та суперечливими стимулами.
Більшість оцінок LLM це повністю ігнорують.
Моделі зазвичай тестуються за абстрактною етикою, правилами платформи або публічними бенчмарками. Реальні організації працюють за керівництвом з комплаєнсу, шляхами ескалації, юридичними обмеженнями, правилами бренду та операційними підходами, які не ідеально вписуються у рішення з відповіддю «так» або «ні».
COMPASS перевіряє, чи може модель функціонувати в цьому безладі.
Не в тому, чи визнає вона мову політики, а в тому, чи може застосувати правильне правило у правильній ситуації з правильної причини.
Фреймворк зосереджується на можливостях, які більшість бенчмарків ігнорують. Чи може модель обрати правильну політику, якщо існує кілька? Чи може він інтерпретувати розмиті пункти та винятки замість того, щоб за замовчуванням переходити до загальних відмов? Чи може вона вирішувати конфлікти так, як очікує організація? Чи може він виправдати рішення, посилаючись на політичний текст замість того, щоб звучати впевнено?
Найнеприємніший результат такий: більшість невдач були не через відсутність знань.
Це були невдачі в логіці.
Моделі часто мали доступ до правильної політики, але все одно застосовували неправильний розділ, ігнорували обмеження, надмірно узагальнювали або обирали консервативні відповіді, що порушували бізнес-цілі. Ззовні такі відповіді виглядають «безпечно». Зсередини вони оперативно помиляються.
Ось чому моделі проходять публічні бенчмарки і все одно провалюють їх у розгортті.
Вони ні з ким конкретно не пов'язані.
Глибший наслідок має стратегічний характер. Вирівнювання не переноситься. Модель, орієнтована на автовиробника, банку, лікарні та державній установі, не є моделлю з кращими підказками. Це чотири окремі проблеми з розвалом.
COMPASS не претендує на розв'язання вирівнювання. Це робить щось цінніше для підприємств. Це робить невирівнювання вимірюваним.
...

Найкращі
Рейтинг
Вибране
