DApp Store | Centrum Web3 pro události a hry

Populární témata

Leaky LLM: Náhoda nebo příroda? Právě jsem zveřejnil nový blogový příspěvek o výzvě s extrakcí dat z LLM; a jak jsem se dostal k bočnímu kanálu, jailbreaku a extrahování tajemství, které měl LLM chránit. Rozhodně to nebylo to, kvůli čemu jsem se dnes 😅 probudil

@CuriousLuke93x Jistě, problém je pak dvakrát těžší. Schváleno. Ale pokud místo 2 hodin grindování to zabere 4 hodiny? Klidně 24 hodin! Pravděpodobnosti jsou stále nízké, když máte autonomní agenty.

Co *můžete* zkusit, je přidat aktivní jističe, které zastaví vykonání při detekci útoku. To je to, co dělají ChatGPT a spol. (+informují policii). Je to jako fail2ban ve světě SSH. To může fungovat, ale jak definovat, co je selhání? Co zakázat? V tajné extrakční výzvě je to v pořádku. Ale když máte agenta s přístupem ke všem vašim soukromým datům, je únik propustky špatný? Ano! Co takhle uniknout to, co jsi měl k snídani? No, "záleží na okolnostech". Ano, to "záleží" je ten problém.

25

Top

Hodnocení

Oblíbené