LLMs fuyants : Accident ou Nature ? Je viens de publier un nouvel article de blog sur un défi d'exfiltration de données d'un LLM ; et comment j'ai réussi à exploiter un canal latéral, à contourner les protections et à extraire le secret que le LLM était censé protéger. Ce n'est définitivement pas ce à quoi je m'attendais en me réveillant aujourd'hui 😅
@CuriousLuke93x Bien sûr, cela rend le problème deux fois plus difficile. Accordé. Mais si au lieu de 2h de farming, cela prend 4h ? Mince, faisons-en 24h ! Les probabilités restent mauvaises quand vous avez des agents autonomes.
Ce que vous *pouvez* essayer de faire, c'est d'ajouter des disjoncteurs actifs qui arrêtent l'exécution lorsqu'ils détectent une attaque. C'est ce que fait ChatGPT et compagnie (+ notifier la police). C'est comme fail2ban dans le monde SSH. Cela peut fonctionner, mais comment définissez-vous ce qu'est un échec ? Qu'est-ce qu'il faut interdire ? Dans un défi d'extraction secrète, bien sûr, c'est acceptable. Mais quand vous avez un agent avec accès à toutes vos données privées, est-ce que le fait de divulguer le mot de passe est mauvais ? Oui ! Que dire de divulguer ce que vous avez mangé au petit-déjeuner ? Eh bien, "ça dépend". Ouais, ce "dépend" est le problème.
34