Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
LLM che perdono dati: incidente o natura?
Ho appena pubblicato un nuovo post sul blog riguardo a una sfida di esfiltrazione di dati da LLM; e come sono riuscito a utilizzare canali laterali, jailbreak e estrarre il segreto che l'LLM doveva proteggere.
Sicuramente non era quello che avevo intenzione di fare oggi 😅
@CuriousLuke93x Certo, rende il problema due volte più difficile. D'accordo. Ma se invece di 2 ore di grinding ne servono 4? Accidenti, facciamole 24 ore! Le probabilità sono comunque sfavorevoli quando hai agenti autonomi.
Quello che *puoi* provare a fare è aggiungere interruttori automatici attivi che fermano l'esecuzione quando rilevano un attacco. È quello che stanno facendo ChatGPT e soci (+notificando la polizia). È come fail2ban nel mondo SSH. Può funzionare, ma come definisci cos'è un fallimento? Cosa vietare?
In una sfida di estrazione segreta, certo, va bene. Ma quando hai un agente con accesso a tutti i tuoi dati privati, è male far trapelare la password? Sì! E far trapelare cosa hai mangiato a colazione? Beh, "dipende". Sì, quel "dipende" è il problema.
24
Principali
Ranking
Preferiti
