Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Por que os Agentes de IA Falham em Tempo e Contexto e Como Dados de Treinamento Ruins Agravam a Situação!
Um novo artigo crítico oferece uma visão sóbria: a maioria dos agentes de IA se torna perigosa não porque não compreendem as instruções dos usuários, mas porque fundamentalmente não compreendem o tempo e o contexto.
O problema central é ilustrado claramente:
Uma ação como "ligar o micro-ondas" é segura apenas se não houver metal dentro. Regras estáticas e avisos vagos baseados em prompts não conseguem detectar isso. Muitos perigos surgem não de uma única ação, mas de uma sequência: ligar o fogão é aceitável; ligá-lo e depois esquecer de desligá-lo não é.
A solução proposta, RoboSafe, introduz barreiras de segurança em tempo de execução que realizam raciocínio bidirecional:
• O raciocínio para frente inspeciona a cena visual atual e os estados dos objetos antes de permitir uma ação.
• O raciocínio para trás revisa ações recentes para detectar obrigações não cumpridas (por exemplo, forçando o agente a desligar um aparelho que ativou anteriormente).
As restrições de segurança são expressas como predicados de código verificável executável, em vez de prompts de linguagem natural não confiáveis.
Experimentos mostram que o RoboSafe reduz ações perigosas em 36,8% enquanto preserva quase todo o desempenho da tarefa, superando métodos baseados em prompts e estáticos, e até resistindo a tentativas de jailbreak em hardware robótico físico.
A implicação mais profunda é inegável: a segurança do agente não pode ser totalmente alcançada no momento do treinamento. A implementação no mundo real exige monitoramento ativo em tempo de execução que realmente compreenda sequências temporais e contexto situacional.
Mas por que os modelos de hoje lutam tão profundamente com tempo e contexto desde o início?
Um crescente corpo de evidências aponta diretamente para a qualidade dos dados como o principal culpado.
Estudos recentes, incluindo uma avaliação apoiada pelo NHS de LLMs em segurança de medicamentos, revelam um padrão revelador: os modelos alcançaram sensibilidade perfeita na detecção de problemas potenciais, mas propuseram a intervenção correta apenas 46,9% das vezes.
Crucialmente, 86% das falhas não resultaram de falta de conhecimento ou alucinações, mas de erros de raciocínio contextual: aplicação rígida de diretrizes sem adaptação aos objetivos do paciente, mal-entendidos sobre fluxos de trabalho do mundo real ou agindo com excesso de confiança quando a incerteza exigia contenção.
Essa fraqueza se repete em diversos domínios. Os modelos se destacam em correspondência de padrões isolados, mas falham quando o julgamento exige uma consciência sutil e situada de tempo, intenção e consequências.
...

Top
Classificação
Favoritos
