Lekke LLM-er: Ulykke eller natur? Jeg har nettopp publisert et nytt blogginnlegg om en LLM-dataeksfiltrasjonsutfordring; og hvordan jeg kom til å sidekanalisere, jailbreake og hente ut hemmeligheten LLM-en skulle beskytte. Definitivt ikke det jeg våknet for å gjøre i dag 😅
@CuriousLuke93x Selvfølgelig gjør det problemet dobbelt så vanskelig. Innvilget. Men hvis det i stedet for 2 timer med grinding tar 4 timer? Gjør det til 24 timer! Sannsynlighetene er fortsatt dårlige når du har autonome agenter.
Det du *kan* prøve å gjøre er å legge til aktive sikringer som stopper utførelsen når den oppdager et angrep. Det er det ChatGPT og co. gjør (+varsler politiet). Det er som fail2ban i SSH-verdenen. Det kan fungere, men hvordan definerer du hva som er en fiasko? Hva skal man forby for? I en hemmelig ekstraksjonsutfordring, ja, det er greit. Men når du har en agent med tilgang til all din private data, er det dårlig å lekke passet? Ja! Hva med å lekke det du spiste til frokost? Vel, «det kommer an på». Ja, at "kommer an" er problemet.
29