Протекающие LLM: случайность или природа? Я только что опубликовал новый блог о проблеме экстракции данных из LLM; и о том, как я смог использовать побочный канал, взломать и извлечь секрет, который LLM должен был защищать. Определенно не то, с чем я проснулся сегодня 😅
@CuriousLuke93x Конечно, это делает проблему вдвое сложнее. Согласен. Но если вместо 2 часов упорного труда потребуется 4 часа? Черт возьми, пусть будет 24 часа! Вероятности все равно плохие, когда у вас есть автономные агенты.
Что вы *можете* попробовать сделать, так это добавить активные автоматические выключатели, которые останавливают выполнение, когда обнаруживают атаку. Именно это делают ChatGPT и подобные (+уведомляют полицию). Это похоже на fail2ban в мире SSH. Это может сработать, но как определить, что является сбоем? Что нужно заблокировать? В задаче по извлечению секретов, конечно, это нормально. Но когда у вас есть агент с доступом ко всем вашим личным данным, является ли утечка пароля плохой? Да! А как насчет утечки того, что вы ели на завтрак? Ну, "это зависит". Да, это "зависит" — вот в чем проблема.
36