Діряві LLM: випадковість чи природа? Я щойно опублікував новий блог-пост про виклик з вилучення даних LLM; і як я потрапив у бічний канал, джейлбрейк і витяг секрет, який LLM мав захищати. Це точно не те, що я 😅 сьогодні прокинувся
@CuriousLuke93x Звісно, це робить проблему вдвічі складнішою. Дозволено. Але якщо замість 2 годин фарму це займе 4 години? Чорт забирай, хай буде 24 години! Ймовірність все одно низька, якщо у вас є автономні агенти.
Що ви *можете* спробувати зробити — це додати активні автомати, які зупиняють виконання при виявленні атаки. Саме цим займаються ChatGPT і компанія (+повідомляють поліцію). Це як fail2ban у світі SSH. Це може спрацювати, але як визначити, що таке провал? Що заборонити? У секретному випробуванні на евакуацію — так, це нормально. Але коли у вас є агент із доступом до всіх ваших приватних даних, чи є витік пропуску поганим? Так! А як щодо того, щоб злити те, що ти їв на сніданок? Ну, «це залежить». Так, це «залежить» — ось у чому проблема.
39