Почему AI-агенты терпят неудачу в отношении времени и контекста, и как плохие обучающие данные усугубляют ситуацию! Критически важная новая статья предоставляет печальное понимание: большинство AI-агентов становятся опасными не потому, что они неправильно понимают инструкции пользователей, а потому, что они в корне неправильно понимают время и контекст. Основная проблема иллюстрируется ясно: Действие, такое как "включить микроволновую печь", безопасно только в том случае, если внутри нет металла. Статические правила и неопределенные предупреждения на основе подсказок не могут это обнаружить. Многие опасности возникают не из-за одного действия, а из-за последовательности: включить плиту нормально; включить ее и затем забыть выключить — это уже не нормально. Предложенное решение, RoboSafe, вводит защитные механизмы во время выполнения, которые выполняют двустороннее рассуждение: • Прямое рассуждение проверяет текущую визуальную сцену и состояния объектов перед разрешением действия. • Обратное рассуждение анализирует недавние действия, чтобы обнаружить незавершенные обязательства (например, заставляя агента выключить прибор, который он ранее активировал). Ограничения безопасности выражаются в виде исполняемой логики, проверяемых кодовых предикатов, а не ненадежных подсказок на естественном языке. Эксперименты показывают, что RoboSafe снижает количество опасных действий на 36,8%, сохраняя почти все показатели выполнения задач, превосходя методы на основе подсказок и статические методы, а также даже сопротивляясь попыткам взлома на физическом роботизированном оборудовании. Глубокий вывод неизбежен: безопасность агентов не может быть полностью достигнута на этапе обучения. Реальное развертывание требует активного мониторинга в реальном времени, который действительно понимает временные последовательности и ситуационный контекст. Но почему современные модели так сильно испытывают трудности с временем и контекстом с самого начала? Растущее количество доказательств указывает непосредственно на качество данных как на основную причину. Недавние исследования, включая оценку LLM в области безопасности медикаментов, поддерживаемую NHS, выявляют показательный шаблон: модели достигли идеальной чувствительности в обнаружении потенциальных проблем, но предложили правильное вмешательство только в 46,9% случаев. Критически важно, что 86% неудач возникли не из-за отсутствия знаний или галлюцинаций, а из-за ошибок контекстуального рассуждения — жесткое применение руководящих принципов без адаптации к целям пациента, неправильное понимание реальных рабочих процессов или чрезмерная самоуверенность, когда неопределенность требовала сдержанности. Эта слабость повторяется в разных областях. Модели отлично справляются с изолированным сопоставлением шаблонов, но терпят неудачу, когда суждение требует тонкого, ситуативного осознания времени, намерений и последствий. ...