Один із перших агентів, який я створив, був надзвичайно простим: Він отримував інформацію з векторного сховища, форматував її як HTML і надсилав користувачу електронною поштою. Простіше вже не буває, і все ж цей агент відмовляв приблизно в 1% випадків. Жодної помилки. Без попередження. Він щойно повернув сміття. Ось жорстока правда: Агенти часто зазнають невдач. І вони мовчки зазнають невдачі. Увесь час. Просто не можна довіряти LLM, що він робить правильні речі щоразу. На цей момент я створив і розгорнув кілька десятків агентів, і ось деякі речі, які справді працюють: 1. Спостережуваність з першого дня. Якщо ви не бачите, що робить ваш агент, ви не можете це налагодити, покращити чи довіряти. Кожен агент повинен створювати сліди, що показують повний потік запитів, взаємодію моделей, використання токенів і метадані про час. 2. Відбійники на входах і виходах. Все, що входить у LLM і виходить з нього, має перевірятися детермінованим кодом. Навіть речі, які навряд чи зламаються, рано чи пізно зламаються. 3. Оцінка LLM як судді. Ви можете створити простий суддя за допомогою LLM для автоматичної оцінки результатів вашого агента. Позначте набір даних, напишіть запит для оцінки і повторюйте, поки суддя не виявить більшість помилок. 4. Аналіз помилок. Ви можете зібрати зразки відмов, класифікувати їх і діагностувати найпоширеніші помилки. 5. Інженерія контексту. Часто агенти зазнають невдачі через шум, перевантаження або неактуальність контексту. Навчитися підтримувати контекст релевантним — це дуже важливо. 6. Людські зворотні зв'язки. Іноді найкращим бар'єром є людина в курсі, особливо для важливих рішень.