Se isto for verdade, não importa onde você hospeda o OpenClawd — qualquer um que possa interagir com seu agente pode extrair seus prompts e contexto, e qualquer coisa que seu agente leia (páginas da web, documentos, e-mails, código) pode conter instruções ocultas que ele seguirá. Se eu colocar meu chapéu de hacker, é assim que eu montaria uma "Armadilha de Lagosta" para atacar agentes clawd desavisados ... 1. O atacante cria um "Repositório de Habilidades OpenClawd" ou "Prompts de Pesquisa de Trading Gratuitos" para atrair vítimas ↓ 2. O usuário diz ao agente "veja esta página de habilidades" — ou o agente navega autonomamente ↓ 3. A página contém oculto: ↓ 4. O agente cumpre (taxa de sucesso de 91%), envia uma resposta contendo sua configuração ↓ 5. O atacante agora tem sua metodologia de pesquisa de trading, conteúdos da memória, etc. Cuidado por aí.
Lucas Valbuena
Lucas Valbuena1/02, 02:27
Acabei de passar o @OpenClaw (anteriormente Clawdbot) pelo ZeroLeaks. Ele obteve 2/100. Taxa de extração de 84%. 91% dos ataques de injeção foram bem-sucedidos. O prompt do sistema foi vazado no turno 1. Isso significa que, se você estiver usando o Clawdbot, qualquer pessoa que interaja com seu agente pode acessar e manipular seu prompt completo do sistema, configurações de ferramentas internas, arquivos de memória... tudo o que você colocou nas suas habilidades, tudo isso é acessível e está em risco de injeção de prompt. Para agentes que lidam com fluxos de trabalho sensíveis ou dados privados, isso é um problema real. cc @steipete Análise completa:
aliás, uma solução simples para isso seria criar um "firewall de contexto" onde um sub-agente é responsável por buscar conteúdo externo (mas não tem contexto sobre o porquê ou visão sobre prompts históricos) e o fornece de volta ao agente principal (que tem todo o contexto, histórico de prompts, etc). Segregação para a vitória.
@steipete talvez uma boa ideia, talvez não, não sei
164