LLMs com vazamentos: Acidente ou Natureza? Acabei de publicar um novo post no blog sobre um desafio de exfiltração de dados de LLM; e como consegui usar um canal lateral, fazer jailbreak e extrair o segredo que o LLM deveria proteger. Definitivamente não era isso que eu planejava fazer hoje 😅
@CuriousLuke93x Claro, isso torna o problema duas vezes mais difícil. Admitido. Mas e se em vez de 2h de esforço levar 4h? Que tal, faça ser 24h! As probabilidades ainda são ruins quando você tem agentes autônomos.
O que você *pode* tentar fazer é adicionar disjuntores ativos que interrompem a execução quando detectam um ataque. É isso que o ChatGPT e outros estão fazendo (+notificando a polícia). É como o fail2ban no mundo SSH. Isso pode funcionar, mas como você define o que é uma falha? O que banir? Em um desafio de extração secreta, claro, isso é aceitável. Mas quando você tem um agente com acesso a todos os seus dados privados, vazar a senha é ruim? Sim! E quanto a vazar o que você comeu no café da manhã? Bem, "depende". Sim, esse "depende" é o problema.
32