Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Leaky LLM: Náhoda nebo příroda?
Právě jsem zveřejnil nový blogový příspěvek o výzvě s extrakcí dat z LLM; a jak jsem se dostal k bočnímu kanálu, jailbreaku a extrahování tajemství, které měl LLM chránit.
Rozhodně to nebylo to, kvůli čemu jsem se dnes 😅 probudil
@CuriousLuke93x Jistě, problém je pak dvakrát těžší. Schváleno. Ale pokud místo 2 hodin grindování to zabere 4 hodiny? Klidně 24 hodin! Pravděpodobnosti jsou stále nízké, když máte autonomní agenty.
Co *můžete* zkusit, je přidat aktivní jističe, které zastaví vykonání při detekci útoku. To je to, co dělají ChatGPT a spol. (+informují policii). Je to jako fail2ban ve světě SSH. To může fungovat, ale jak definovat, co je selhání? Co zakázat?
V tajné extrakční výzvě je to v pořádku. Ale když máte agenta s přístupem ke všem vašim soukromým datům, je únik propustky špatný? Ano! Co takhle uniknout to, co jsi měl k snídani? No, "záleží na okolnostech". Ano, to "záleží" je ten problém.
25
Top
Hodnocení
Oblíbené
