DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Läckande LLM:er: Olycka eller natur? Jag har precis publicerat ett nytt blogginlägg om en utmaning med dataexfiltration i LLM; och hur jag fick sidokanalisera, jailbreaka och extrahera hemligheten som LLM var tänkt att skydda. Definitivt inte vad jag vaknade för att göra idag 😅

@CuriousLuke93x Visst, det gör problemet dubbelt så svårt. Beviljat. Men om det istället för 2 timmars grindande tar 4 timmar? Gör det till 24 timmar! Sannolikheterna är fortfarande dåliga när du har autonoma agenter.

Det du *kan* försöka göra är att lägga till aktiva brytare som stoppar exekveringen när den upptäcker en attack. Det är vad ChatGPT och co. gör ((meddelar polisen). Det är som fail2ban i SSH-världen. Det kan fungera, men hur definierar man vad som är ett misslyckande? Vad ska man förbjuda? I en hemlig extraktionsutmaning, visst, det är okej. Men när du har en agent med tillgång till all din privata data, är det dåligt att läcka passet? Ja! Vad sägs om att läcka det du åt till frukost? Tja, "det beror på". Ja, det är "beror på" som är problemet.

38

Topp

Rankning

Favoriter