Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Когда вы создаете AI-агентов, не рассматривайте подсказки как строки конфигурации.
Смотрите на них как на исполняемую бизнес-логику. Потому что именно это они и есть.
Блог @arshdilbagi и эта лекция Stanford CS 224G представляют одну из самых ясных ментальных моделей, которые я видел для оценки LLM.
Перестаньте рассматривать оценки как юнит-тесты.
Это работает для детерминированного программного обеспечения.
Для продуктов LLM это создает ложное чувство уверенности, потому что реальное использование меняется со временем.
Пример: подсказка для страхования прошла 20 оценочных случаев. Команда выпустила продукт. В производстве появилась новая категория запросов, и они тихо провалились. Никакого сбоя, никаких предупреждений, просто неправильные ответы в большом масштабе.
Решение не в том, чтобы "написать больше оценочных случаев", что делают многие команды.
Решение заключается в создании оценок как живой обратной связи. Начните с небольшого набора, выпустите, наблюдайте, что ломается в производстве, добавьте эти сбои обратно и повторно запускайте на каждой подсказке или изменении модели.
Какой сбой в оценке застал вашу команду врасплох?
Блог:
Лекция Stanford CS 224G:

Топ
Рейтинг
Избранное
