Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Использование
Идея мета-бенчмарка: коллекция базовых хранилищ агентов (AGENTS.md, документация, навыки, хуки), которые инкапсулируют нетривиальные приложения, каждое из которых имеет единственный запрос для создания приложения с нуля за один раз. Когда появляются новые кодирующие агенты или модели, мы можем протестировать их на хранилище, чтобы напрямую сравнить с предыдущими версиями модели. "Эта модель написала браузер с нуля, используя стандартное хранилище браузера, с X% полнотой функций и всего Y строк кода за Z часов за $XYZ."
Представьте, как этот браузер, разработанный Cursor, развивался с учетом каждого последующего обновления модели. Насколько хорош был код? Насколько быстро работал рендерер? Насколько полным был набор функций? Сколько времени агенту нужно было для выполнения? Какова была общая стоимость токенов?
Что-то вроде CSS Zen Garden (который значительно способствовал продвижению стандартов браузеров) для хранилищ агентов.
Мне кажется, что все мы испытали разницу в Codex 5.4 Extra High (если нет, прекратите читать этот пост и попробуйте это немедленно), но у нас все еще нет способа зафиксировать в бенчмарке качественный опыт использования его как разработчика, особенно для таких показателей, как архитектура и качество кода.
Топ
Рейтинг
Избранное
