Por que agentes de IA falham no momento e no contexto e como dados ruins de treinamento pioram isso! Um novo artigo crítico traz uma visão sóbria: a maioria dos agentes de IA se torna perigosa não porque entende mal as instruções do usuário, mas porque fundamentalmente não entende o tempo e o contexto. O problema central é ilustrado claramente: Uma ação como "ligar o micro-ondas" só é segura se não houver metal dentro. Regras estáticas e avisos vagos baseados em prompts não conseguem detectar isso. Muitos perigos surgem não de uma única ação, mas de uma sequência em que ligar um fogão é aceso; Ligar e depois esquecer de desligar não é. A solução proposta, RoboSafe, introduz proteções em tempo de execução que realizam raciocínio bidirecional: • O raciocínio direto inspeciona a cena visual atual e os estados do objeto antes de permitir uma ação. • O raciocínio retroativo revisa ações recentes para detectar obrigações inacabadas (por exemplo, forçar o agente a desligar um aparelho que ele havia ativado anteriormente). Restrições de segurança são expressas como predicados de código verificáveis com lógica executável, em vez de prompts de linguagem natural pouco confiáveis. Experimentos mostram que o RoboSafe reduz ações perigosas em 36,8%, preservando quase todo o desempenho das tarefas, superando métodos baseados em prompts e estáticos, e até resistindo a tentativas de jailbreak em hardware robótico físico. A implicação mais profunda é inevitável: a segurança dos agentes não pode ser totalmente alcançada no momento do treinamento. A implantação no mundo real exige monitoramento ativo em tempo de execução que realmente compreenda as sequências temporais e o contexto situacional. Mas por que os modelos atuais têm tanta dificuldade com o tempo e o contexto desde o início? Um corpo crescente de evidências aponta diretamente para a qualidade dos dados como principal culpada. Estudos recentes, incluindo uma avaliação apoiada pelo NHS dos LLMs na segurança de medicamentos, revelam um padrão revelador: modelos alcançaram sensibilidade perfeita na detecção de possíveis problemas, mas propuseram a intervenção correta apenas 46,9% das vezes. Crucialmente, 86% das falhas não surgiram de falta de conhecimento ou alucinações, mas de erros de raciocínio contextual aplicando rigidamente diretrizes sem se adaptar aos objetivos do paciente, malentendendo fluxos de trabalho do mundo real ou agindo com excesso de confiança quando a incerteza exigia contenção. Essa fraqueza se repete entre os domínios. Modelos se destacam em correspondência de padrões isolados, mas vacilam quando o julgamento exige consciência nuançada e situada do tempo, da intenção e das consequências. ...