Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM-uri cu scurgeri: accident sau natură?
Tocmai am publicat un nou articol pe blog despre o provocare de exfiltrare a datelor pentru LLM; și cum am ajuns să fac side channel, să fac jailbreak și să extrag secretul pe care LLM-ul trebuia să-l protejeze.
Cu siguranță nu asta m-am trezit să fac azi 😅
@CuriousLuke93x Sigur, problema devine de două ori mai dificilă. Acceptat. Dar dacă în loc de 2 ore de grind durează 4 ore? La naiba, fă-o 24 de ore! Probabilitățile sunt încă slabe când ai agenți autonomi.
Ce *poți* încerci să faci este să adaugi întrerupătoare active care opresc execuția când detectează un atac. Asta fac ChatGPT și ceilalți (+notificând poliția). E ca fail2ban în lumea SSH. Asta poate funcționa, dar cum definești ce înseamnă un eșec? Ce să interzici?
Într-o provocare secretă de extragere, sigur, e în regulă. Dar când ai un agent cu acces la toate datele tale private, este rău să scurgi permisul? Da! Ce zici să scurgi ce ai mâncat la micul dejun? Ei bine, "depinde". Da, asta "depinde" este problema.
27
Limită superioară
Clasament
Favorite
