Je veux continuer un peu sur ce sujet, sur lequel (jusqu'à présent) je vois très peu de préoccupations. Il existe d'énormes réserves de données privées que nous avons accumulées à divers endroits, y compris dans les applications de messagerie. Une véritable "killer app" pour l'IA générative est d'ingérer ces données et de les transformer en revenus.
Par exemple, si vous utilisez certaines applications de messagerie sécurisée, vous remarquerez qu'elles sont très utiles pour sauvegarder votre historique de conversation afin que "vous ne perdiez pas de données". Je sais que certaines personnes comptent vraiment là-dessus, mais cela signifie aussi (par coïncidence) que vous avez transporté une énorme quantité de données.
Ces données sont actuellement totalement obscures pour les entreprises de publicité. Sont-elles précieuses ? Je ne sais pas. Peut-être que tout ce qui peut être extrait de manière rentable existe déjà dans un forum public ! Mais sûrement, quelqu'un veut le découvrir.
De même, il y a beaucoup de choses sur votre ordinateur ou votre téléphone qui "sont connues" d'une entreprise technologique ou d'une autre, mais peut-être pas de toutes les entreprises technologiques. Par exemple, Google a des années de mes e-mails et de nombreux documents dans le cloud, mais Meta, Claude et OpenAI ne les ont pas. Pourtant.
Je ne connais pas l'avenir. Peut-être que dans dix ans, nous vivrons dans une utopie ou une dystopie liée à l'IA et que les préoccupations concernant les publicités ciblées sembleront désuètes. Mais si vous envisagez les modèles commerciaux d'aujourd'hui, exploiter toutes ces données est la prochaine frontière.
Tout cela nécessite de convaincre les gens d'installer des outils d'IA utiles localement et de donner à ces outils accès aux bases de données pertinentes. Ces outils sont déjà disponibles auprès de la plupart des entreprises d'IA, et toutes les entreprises technologiques ont des "stratégies d'IA" pour leurs applications existantes.
Maintenant, les gens vous diront que cela peut être fait en utilisant des modèles locaux et des TEE. Oui, c'est possible. Mais pour faire quoi que ce soit d'utile (autre que de vous aider à composer des textes et à résumer des choses), ces outils doivent agir dans le monde. Cela crée, d'abord, un risque involontaire d'exposition des données.
Je ne parle pas (encore) des entreprises essayant délibérément de monétiser les données. En ce moment, je parle juste du risque d'exfiltration accidentelle (ou malveillante). Des attaques par injection de prompt qui amènent un modèle à transmettre des données privées vers l'extérieur.
Nous n'avons pas encore vu le premier "ver" d'injection de prompt dans le monde réel. Mais je parie que nous le verrons ! Ce sera excitant. L'état de l'art pour se défendre contre ce risque est... un peu flou en ce moment.
Par exemple, nos meilleures idées en ce moment sont « ne laissez jamais rien franchir les frontières privées/publiques », ce qui n'est pas vraiment utile pour de nombreuses tâches. Ou « utilisez des modèles pour vérifier les violations de la vie privée », ce qui me rappelle cette histoire de Dr. Seuss sur le roi qui utilise des chats pour chasser les souris qui volent son fromage.
Mais cette préoccupation est secondaire. Le véritable risque est que les entreprises qui construisent ces outils vont *délibérément* les concevoir pour extraire des informations. Considérez un agent qui effectue une recherche pour vous, en utilisant un moteur de recherche ouvert. Envoyer des informations privées rend la recherche plus utile !
Donc, vos données privées indiquent au modèle local/TEE ce que vous aimez. Vous demandez à l'agent de rechercher des produits. Combien d'informations privées sur vos préférences accompagne cette recherche, délibérément ?
La réponse, autant que je peux en juger, est : beaucoup ! Plus un moteur de recherche a de contexte sur vos désirs, meilleurs seront les résultats. Et par coïncidence, meilleure sera la ciblage et le suivi des publicités.
Une réponse à cela est : qui s'en soucie ! Peut-être que c'est juste comme ça que le monde fonctionnera maintenant. Nous pouvons même construire des modèles qui vous suivent et vous font de la publicité "privément", ce qui signifie qu'ils lisent toutes vos données confidentielles et les utilisent simplement pour vous vendre le bon savon. Est-ce si mal ?
Bien sûr, en même temps, il y aura des gouvernements qui voudront accéder à ces informations. Si vous pouviez utiliser ces données pour suivre et identifier des criminels (ou des criminels potentiels) sans lire littéralement leurs données, ne serait-ce pas un outil d'investigation incroyable ?
Ce ne sont pas des préoccupations futures comme l'AGi. L'IA générative peut faire tout cela dès maintenant. Les entreprises travaillent donc toutes à mettre en œuvre ces idées aujourd'hui. Les gouvernements (comme l'UE) demandent déjà l'accès à des modèles qui lisent des données privées.
Quoi que nous choisissions de faire, je veux que les gens prennent ces décisions les yeux ouverts. Je ne veux pas que quelqu'un dise "oh, eh bien, cette fonctionnalité prétend être privée alors pourquoi ne pas cliquer sur Ok cette fois-ci" et que cinq ans de données confidentielles s'écoulent dans le pipeline d'ingestion.
Essayer de faire en sorte que les gens se soucient de cela, c'est comme essayer de faire porter de la crème solaire à un adolescent. Tous les risques semblent si théoriques, et les avantages sont tous dans le présent. Je ne veux tout simplement pas que nous nous réveillons un jour en souhaitant avoir agi différemment.
190