Por que os Agentes de IA Falham em Tempo e Contexto e Como Dados de Treinamento Ruins Agravam a Situação! Um novo artigo crítico oferece uma visão sóbria: a maioria dos agentes de IA se torna perigosa não porque não compreendem as instruções dos usuários, mas porque fundamentalmente não compreendem o tempo e o contexto. O problema central é ilustrado claramente: Uma ação como "ligar o micro-ondas" é segura apenas se não houver metal dentro. Regras estáticas e avisos vagos baseados em prompts não conseguem detectar isso. Muitos perigos surgem não de uma única ação, mas de uma sequência: ligar o fogão é aceitável; ligá-lo e depois esquecer de desligá-lo não é. A solução proposta, RoboSafe, introduz barreiras de segurança em tempo de execução que realizam raciocínio bidirecional: • O raciocínio para frente inspeciona a cena visual atual e os estados dos objetos antes de permitir uma ação. • O raciocínio para trás revisa ações recentes para detectar obrigações não cumpridas (por exemplo, forçando o agente a desligar um aparelho que ativou anteriormente). As restrições de segurança são expressas como predicados de código verificável executável, em vez de prompts de linguagem natural não confiáveis. Experimentos mostram que o RoboSafe reduz ações perigosas em 36,8% enquanto preserva quase todo o desempenho da tarefa, superando métodos baseados em prompts e estáticos, e até resistindo a tentativas de jailbreak em hardware robótico físico. A implicação mais profunda é inegável: a segurança do agente não pode ser totalmente alcançada no momento do treinamento. A implementação no mundo real exige monitoramento ativo em tempo de execução que realmente compreenda sequências temporais e contexto situacional. Mas por que os modelos de hoje lutam tão profundamente com tempo e contexto desde o início? Um crescente corpo de evidências aponta diretamente para a qualidade dos dados como o principal culpado. Estudos recentes, incluindo uma avaliação apoiada pelo NHS de LLMs em segurança de medicamentos, revelam um padrão revelador: os modelos alcançaram sensibilidade perfeita na detecção de problemas potenciais, mas propuseram a intervenção correta apenas 46,9% das vezes. Crucialmente, 86% das falhas não resultaram de falta de conhecimento ou alucinações, mas de erros de raciocínio contextual: aplicação rígida de diretrizes sem adaptação aos objetivos do paciente, mal-entendidos sobre fluxos de trabalho do mundo real ou agindo com excesso de confiança quando a incerteza exigia contenção. Essa fraqueza se repete em diversos domínios. Os modelos se destacam em correspondência de padrões isolados, mas falham quando o julgamento exige uma consciência sutil e situada de tempo, intenção e consequências. ...