Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Протекающие LLM: случайность или природа?
Я только что опубликовал новый блог о проблеме экстракции данных из LLM; и о том, как я смог использовать побочный канал, взломать и извлечь секрет, который LLM должен был защищать.
Определенно не то, с чем я проснулся сегодня 😅
@CuriousLuke93x Конечно, это делает проблему вдвое сложнее. Согласен. Но если вместо 2 часов упорного труда потребуется 4 часа? Черт возьми, пусть будет 24 часа! Вероятности все равно плохие, когда у вас есть автономные агенты.
Что вы *можете* попробовать сделать, так это добавить активные автоматические выключатели, которые останавливают выполнение, когда обнаруживают атаку. Именно это делают ChatGPT и подобные (+уведомляют полицию). Это похоже на fail2ban в мире SSH. Это может сработать, но как определить, что является сбоем? Что нужно заблокировать?
В задаче по извлечению секретов, конечно, это нормально. Но когда у вас есть агент с доступом ко всем вашим личным данным, является ли утечка пароля плохой? Да! А как насчет утечки того, что вы ели на завтрак? Ну, "это зависит". Да, это "зависит" — вот в чем проблема.
36
Топ
Рейтинг
Избранное
