Voglio continuare un po' su questo argomento, sul quale (fino ad ora) vedo pochissima preoccupazione. Ci sono enormi quantità di dati privati che abbiamo accumulato in vari luoghi, comprese le app di messaggistica. Una vera "killer app" per l'AI generativa è quella di ingerirli e trasformare quei dati in entrate.
Ad esempio, se utilizzi alcune app di messaggistica sicura, noterai che sono molto utili per eseguire il backup della cronologia delle conversazioni in modo che "tu non perda dati". So che alcune persone si affidano davvero a questo, ma significa anche che (per coincidenza) hai portato in giro un'enorme quantità di dati.
Attualmente, quei dati sono completamente oscuri per le aziende pubblicitarie. Sono preziosi? Non lo so. Forse tutto ciò che può essere estratto in modo redditizio esiste già in un forum pubblico! Ma sicuramente qualcuno vuole scoprirlo.
Allo stesso modo, ci sono molte cose sul tuo computer o telefono che "sono conosciute" da una società tecnologica o un'altra, ma forse non da tutte le società tecnologiche. Ad esempio, Google ha anni della mia posta e molti documenti nel cloud, ma Meta, Claude e OpenAI non li hanno. Eppure.
Ora non so quale sia il futuro. Forse tra dieci anni vivremo in un'utopia o distopia dell'AI e le preoccupazioni riguardo agli annunci mirati saranno superate. Ma se stai considerando i modelli di business di oggi, sfruttare tutti quei dati è la prossima frontiera.
Tutto ciò richiede di convincere le persone a installare strumenti AI utili localmente e a dare a quegli strumenti accesso ai relativi archivi di dati. Quegli strumenti sono già disponibili presso la maggior parte delle aziende di AI, e le aziende tecnologiche hanno tutte "strategie AI" per le loro app esistenti.
Ora la gente vi dirà che questo può essere fatto utilizzando modelli locali e TEE. Sì, può essere fatto. Ma per fare qualcosa di utile (oltre ad aiutarvi a comporre testi e riassumere cose) quegli strumenti devono fare cose nel mondo. Questo crea, prima di tutto, un rischio involontario di esposizione dei dati.
Non sto parlando (ancora) di aziende che cercano deliberatamente di monetizzare i dati. In questo momento parlo solo del rischio di estrazione accidentale (o malevola). Attacchi di iniezione di prompt che causano a un modello di inviare dati privati all'esterno.
Non abbiamo ancora visto il primo "worm" di iniezione di prompt nel mondo reale. Ma scommetto che lo vedremo! Sarà emozionante. Lo stato dell'arte nella difesa contro questo rischio è... piuttosto vago in questo momento.
Ad esempio, le nostre migliori idee in questo momento sono "non lasciare mai che nulla attraversi i confini privati/pubblici", che non è davvero utile per molti compiti. Oppure "utilizzare modelli per controllare le violazioni della privacy", che mi ricorda quella storia di Dr. Seuss sul re che usa i gatti per inseguire i topi che rubano il suo formaggio.
Ma quella preoccupazione è secondaria. Il vero rischio è che le aziende che costruiscono queste cose *progettino deliberatamente* per estrarre informazioni. Considera un agente che fa una ricerca per te, utilizzando un motore di ricerca aperto. Inviare informazioni private rende la ricerca più utile!
Quindi i tuoi dati privati dicono al modello locale/TEE cosa ti piace. Chiedi all'agente di cercare prodotti. Quanta informazione privata sulle tue preferenze accompagna deliberatamente quella ricerca?
La risposta, per quanto posso vedere, è: tante! Maggiore è il contesto che un motore di ricerca ha riguardo ai tuoi desideri, migliori saranno i risultati. E per coincidenza, migliore sarà anche il targeting e il tracciamento degli annunci.
Una controreplica a questo è: a chi importa! Forse è semplicemente così che funzionerà il mondo ora. Possiamo persino costruire modelli che tracciano e pubblicizzano a te "privatamente", il che significa che leggono tutti i tuoi dati riservati e li usano solo per venderti il sapone giusto. È così male?
Certo, allo stesso tempo, ci saranno governi che vorranno avere accesso a quelle informazioni. Se potessi utilizzare questi dati per tracciare e identificare i criminali (o potenziali criminali) senza leggere letteralmente i loro dati, non sarebbe uno strumento investigativo straordinario?
Queste non sono preoccupazioni future come lo è l'AGi. L'AI generativa può fare tutto questo adesso. Quindi le aziende stanno già lavorando per implementare queste idee oggi. I governi (come l'UE) stanno già richiedendo accesso a modelli che leggono dati privati.
Qualunque cosa decidiamo di fare, voglio che le persone prendano queste decisioni con consapevolezza. Non voglio che nessuno dica "oh, beh, questa funzione afferma di essere privata, quindi perché non cliccare Ok questa volta" e cinque anni di dati riservati fluiscano nel pipeline di acquisizione.
Cercare di far interessare le persone a questo è come cercare di far indossare la crema solare a un adolescente. Tutti i rischi sembrano così teorici, e i benefici sono tutti nel presente. Non voglio che un giorno ci svegliamo e desideriamo di aver fatto le cose in modo diverso.
181