Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Чому агенти ШІ зазнають невдачі в час і контексті, і як погані навчальні дані погіршують ситуацію!
Критична нова стаття дає серйозне усвідомлення: більшість агентів ШІ стають небезпечними не через неправильне розуміння інструкцій користувача, а тому, що фундаментально неправильно розуміють час і контекст.
Основна проблема чітко ілюструвана:
Дія на кшталт «увімкнути мікрохвильовку» безпечна лише якщо всередині немає металу. Статичні правила та розмиті попередження на основі підказок цього не можуть виявити. Багато небезпек виникають не через одну дію, а через послідовність, що вмикає плиту — це нормально; Вмикати і потім забути вимкнути — це не так.
Запропоноване рішення, RoboSafe, вводить захисні рамки під час виконання, які виконують двонаправлене мислення:
•Переднє мислення перевіряє поточний візуальний стан і стан об'єкта перед тим, як дозволити дію.
•Зворотне мислення переглядає нещодавні дії для виявлення незавершених зобов'язань (наприклад, змушування агента вимкнути пристрій, який він уже активував).
Обмеження безпеки виражаються як виконувані логічні кодові предикати, а не ненадійні підказки природною мовою.
Експерименти показують, що RoboSafe знижує небезпечні дії на 36,8%, зберігаючи майже всю продуктивність завдань, перевершуючи підказки та статичні методи, а також протистоячи спробам джейлбрейку на фізичному роботизованому обладнанні.
Глибший висновок неминучий: безпека агентів не може бути повністю досягнута під час тренувань. Розгортання в реальному світі вимагає активного моніторингу під час виконання, який дійсно розуміє часові послідовності та ситуаційний контекст.
Але чому сучасні моделі так сильно страждають від часу та контексту?
Зростаюча кількість доказів безпосередньо вказує на якість даних як на основний винуватець.
Останні дослідження, включно з оцінкою LLM з безпеки медикаментів, підтриманою NHS, виявляють помітну закономірність: моделі досягали ідеальної чутливості у виявленні потенційних проблем, але пропонували правильне втручання лише у 46,9% випадків.
Важливо, що 86% невдач виникли не через відсутність знань чи галюцинації, а через помилки контекстуального мислення, які жорстко застосовували рекомендації без адаптації до цілей пацієнта, неправильно розуміли реальні робочі процеси або діяли надмірно впевнено, коли невизначеність вимагала стриманості.
Ця слабкість повторюється в різних сферах. Моделі чудово вміють ізольовано підбирати закономірності, але помиляються, коли судження вимагає тонкого, обґрунтованого усвідомлення часу, наміру та наслідків.
...

Найкращі
Рейтинг
Вибране
