Quero continuar um pouco sobre este assunto, que (até agora) vejo muito pouca preocupação. Existem vastos repositórios de dados privados que acumulámos em vários lugares, incluindo aplicações de mensagens. Um verdadeiro "killer app" para a Gen AI é ingerir esses dados e transformar essa informação em receita.
Por exemplo, se você usar alguns aplicativos de mensagens seguros, notará que eles são muito úteis para fazer backup do seu histórico de conversas para que "você não perca dados". Eu sei que algumas pessoas realmente dependem disso, mas também significa que você tem carregado uma enorme pilha de dados.
Esses dados estão atualmente completamente obscuros para as empresas de publicidade. É valioso? Não sei. Talvez tudo o que pode ser extraído de forma lucrativa já exista em um fórum público! Mas certamente alguém quer descobrir.
Da mesma forma, há muitas coisas no seu computador ou telefone que "são conhecidas" por uma empresa de tecnologia ou outra, mas talvez não por todas as empresas de tecnologia. Por exemplo, o Google tem anos dos meus e-mails e muitos documentos na nuvem, mas a Meta, a Claude e a OpenAI não têm. No entanto.
Agora, eu não sei o futuro. Talvez em dez anos vivamos em uma utopia ou distopia de IA e as preocupações com anúncios direcionados sejam antiquadas. Mas se você está considerando os modelos de negócios de hoje, explorar todos esses dados é a próxima fronteira.
Tudo isso requer convencer as pessoas a instalar ferramentas de IA úteis localmente e a dar a essas ferramentas acesso aos repositórios de dados relevantes. Essas ferramentas já estão disponíveis na maioria das empresas de IA, e as empresas de tecnologia têm todas "estratégias de IA" para os seus aplicativos existentes.
Agora, as pessoas vão dizer-lhe que isso pode ser feito usando modelos locais e TEEs. Sim, pode. Mas para fazer algo útil (além de ajudá-lo a compor textos e resumir coisas), essas ferramentas precisam fazer coisas no mundo. Isso cria, primeiro, um risco inadvertido de exposição de dados.
Não estou a falar (ainda) sobre empresas que tentam deliberadamente monetizar dados. Neste momento, estou apenas a falar sobre o risco de exfiltração acidental (ou maliciosa). Ataques de injeção de prompt que fazem com que um modelo envie dados privados para fora.
Ainda não vimos o primeiro "worm" de injeção de prompt no mundo real. Mas aposto que veremos! Vai ser emocionante. O estado da arte na defesa contra este risco é... meio vago neste momento.
Por exemplo, as nossas melhores ideias neste momento são "nunca deixar nada cruzar as fronteiras privadas/públicas", o que não é realmente útil para muitas tarefas. Ou "usar modelos para verificar violações de privacidade", o que me lembra daquela história do Dr. Seuss sobre o rei que usa gatos para perseguir os ratos que estão a roubar o seu queijo.
Mas essa preocupação é secundária. O verdadeiro risco é que as empresas que estão a construir isto *deliberadamente* o projetem para extrair informações. Considere um agente que faz uma pesquisa por si, usando um motor de busca aberto. Enviar informações privadas torna a pesquisa mais útil!
Assim, os seus dados privados dizem ao modelo local/TEE o que você gosta. Você pede ao agente para procurar produtos. Quanta informação privada sobre as suas preferências acompanha essa busca, deliberadamente?
A resposta, pelo que posso ver, é: muitos! Quanto mais contexto um motor de busca tiver sobre os seus desejos, melhores serão os resultados. E, por coincidência, melhor será a segmentação e o rastreamento de anúncios.
Uma refutação a isso é: quem se importa! Talvez seja assim que o mundo funcionará agora. Podemos até construir modelos que rastreiam e publicitam para você "privadamente", o que significa que eles leem todos os seus dados confidenciais e apenas os usam para vender o sabonete certo. Isso é tão mau assim?
Claro que, ao mesmo tempo, haverá governos que quererão acesso a esses insights. Se você pudesse usar esses dados para rastrear e identificar criminosos (ou potenciais criminosos) sem literalmente ler os dados deles, não seria uma ferramenta de investigação incrível?
Estas não são preocupações futuras como a AGi. A Gen AI pode fazer tudo isso agora mesmo. Portanto, as empresas estão todas a trabalhar para implementar estas ideias hoje. Os governos (como a UE) já estão a solicitar acesso a modelos que leem dados privados.
Independentemente do que escolhermos fazer, quero que as pessoas tomem essas decisões com os olhos abertos. Não quero que ninguém diga "ah, bem, esta funcionalidade afirma ser privada, então por que não clicar em Ok desta vez" e cinco anos de dados confidenciais fluam para o pipeline de ingestão.
Tentar fazer as pessoas se importarem com isso é como tentar fazer um adolescente usar protetor solar. Todos os riscos parecem tão teóricos, e os benefícios estão todos no presente. Eu só não quero que todos nós acordemos um dia e desejemos ter feito as coisas de forma diferente.
186