Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lekke LLM's: Toeval of Natuur?
Ik heb zojuist een nieuwe blogpost gepubliceerd over een LLM-gegevensuitvoeringsuitdaging; en hoe ik de zijkanaal, jailbreak en het geheim heb geëxtraheerd dat de LLM moest beschermen.
Zeker niet wat ik vandaag wakker wilde doen 😅
@CuriousLuke93x Zeker, het maakt het probleem twee keer zo moeilijk. Dat is waar. Maar als het in plaats van 2 uur grind 4 uur kost? Maak er gerust 24 uur van! De kansen zijn nog steeds slecht als je autonome agents hebt.
Wat je *kunt* proberen te doen, is actieve stroomonderbrekers toe te voegen die de uitvoering stoppen wanneer ze een aanval detecteren. Dat is wat ChatGPT en co doen (+ de politie waarschuwen). Het is als fail2ban in de SSH-wereld. Dat kan werken, maar hoe definieer je wat een mislukking is? Wat moet je verbannen?
In een geheimextractie-uitdaging is dat zeker oké. Maar wanneer je een agent hebt met toegang tot al je privégegevens, is het lekken van het wachtwoord slecht? Ja! Hoe zit het met het lekken van wat je voor ontbijt had? Nou, "het hangt ervan af". Ja, dat "afhankelijk" is het probleem.
36
Boven
Positie
Favorieten
