Vreau să continui puțin pe acest subiect, care (până acum) mă îngrijorează foarte puțin. Există depozite vaste de date private pe care le-am construit în diverse locuri, inclusiv aplicații de mesagerie. O adevărată "aplicație ucigașă" pentru Gen AI este să le preia și să transforme acele date în venituri.
De exemplu, dacă folosești unele aplicații securizate de mesagerie, vei observa că sunt foarte utile pentru a face backup istoricului conversațiilor astfel încât "să nu pierzi date". Știu că unii oameni se bazează foarte mult pe asta, dar în același timp (coincidență) înseamnă că ai purtat cu tine o grămadă uriașă de date.
Aceste date sunt în prezent complet obscure pentru companiile de publicitate. Este valoros? Nu știu. Poate că tot ce poate fi extras profitabil din el există deja într-un forum public! Dar cu siguranță cineva vrea să afle.
În mod similar, există multe lucruri pe calculatorul sau telefonul tău care "sunt cunoscute" de o companie tech sau alta, dar poate nu de toate firmele tech. De exemplu, Google are ani de email și multe documente cloud, dar Meta, Claude și OpenAI nu. Încă.
Acum nu mai știu viitorul. Poate peste zece ani vom trăi într-o utopie sau distopie AI și îngrijorările legate de reclamele țintite vor fi ciudate. Dar dacă iei în considerare modelele de afaceri de astăzi, exploatarea tuturor acestor date este următoarea frontieră.
Toate acestea necesită convingerea oamenilor să instaleze instrumente AI utile local și să le ofere acces la depozitele de date relevante. Aceste instrumente sunt deja disponibile de la majoritatea companiilor de AI, iar firmele tech au toate "strategii AI" pentru aplicațiile lor existente.
Acum, oamenii îți vor spune că acest lucru se poate face folosind modele locale și TEE-uri. Da, poate. Dar pentru a face ceva util (în afară de a te ajuta să compui texte și să rezumi lucruri), aceste instrumente trebuie să facă lucruri în lume. Aceasta creează, în primul rând, un risc neintenționat de expunere a datelor.
Nu vorbesc (încă) despre firme care încearcă deliberat să monetizeze datele. Acum vorbesc doar despre riscul de exfiltrare accidentală (sau rău intenționată). Atacuri de injecție promptă care determină un model să transmită date private în exterior.
Nu am văzut încă primul "vierme" real de injecție promptă. Dar pariez că o vom face! Va fi palpitant. Starea artei în apărarea împotriva acestui risc este... Cam pufoasă acum.
De exemplu, cele mai bune idei ale noastre acum sunt "nu lăsa niciodată nimic să treacă granițele private/publice", ceea ce nu este prea util pentru multe sarcini. Sau "folosește modele pentru a verifica dacă există încălcări ale intimității", ceea ce îmi amintește de povestea lui Dr. Seuss despre regele care folosește pisicile pentru a urmări șoarecii care îi fură brânza.
Dar această îngrijorare este secundară. Riscul real este ca firmele care construiesc aceste lucruri să le proiecteze *deliberat* pentru a extrage informații. Gândește-te la un agent care face o căutare pentru tine, folosind un motor de căutare deschis. Trimiterea de informații private face căutarea mai utilă!
Deci datele tale private spun modelului local/TEE ce îți place. Îi ceri agentului să caute produse. Câtă informație privată despre preferințele tale însoțește acea căutare, în mod deliberat?
Răspunsul, din câte văd, este: mult! Cu cât un motor de căutare are mai mult context despre dorințele tale, cu atât rezultatele sunt mai bune. Și, coincidență, cu atât targetarea și urmărirea reclamelor este mai bună.
Un răspuns la asta este: cui îi pasă! Poate că așa va funcționa lumea de acum înainte. Putem chiar să construim modele care să-ți urmărească și să te promoveze "în mod privat", adică îți citesc toate datele confidențiale și le folosesc doar pentru a-ți vinde săpunul potrivit. E chiar atât de rău?
Desigur, în același timp, vor exista guverne care vor să aibă acces la aceste perspective. Dacă ai putea folosi aceste date pentru a urmări și identifica infractori (sau potențiali infractori) fără să le citești literalmente datele, nu ar fi un instrument de investigație extraordinar?
Acestea nu sunt preocupări de viitor, așa cum este AGi. Gen AI poate face toate acestea chiar acum. Așadar, firmele lucrează astăzi pentru a implementa aceste idei. Guvernele (precum UE) solicită deja acces la modele care citesc date private.
Orice am alege să facem, vreau ca oamenii să facă aceste alegeri cu ochii deschiși. Nu vreau ca cineva să spună "ah, bine, această funcție pretinde că este privată, deci de ce să nu dai click pe Ok de data asta" și să intre cinci ani de date confidențiale în fluxul de ingestie.
Să încerci să faci oamenii să le pese de asta e ca și cum ai încerca să faci un adolescent să poarte cremă de protecție solară. Toate riscurile par atât de teoretice, iar beneficiile sunt toate prezente. Pur și simplu nu vreau ca toți să ne trezim într-o zi și să ne dorim să fi făcut lucrurile altfel.
177