Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Упряжі
Ідея мета-бенчмарку: збірка базових агентських упряжувань (AGENTS.md, документації, навички, гачки), які охоплюють нетривіальні додатки, кожен з яких має один запит для терраформування додатку з нуля. Коли з'являються нові кодувальні агенти або моделі, ми можемо напряму порівняти з попередніми версіями моделей. "Ця модель написала браузер з нуля зі стандартного використання браузера з X% повноти функцій і лише Y рядків коду за Z-години $XYZ."
Уявіть, що курсор браузера розвивається через призму кожного наступного оновлення моделі. Наскільки хороший був код? Наскільки швидким був рендерер? Наскільки повним був набір функцій? Скільки часу агент мав бігти? Яка була загальна вартість жетонів?
Щось на кшталт CSS Zen Garden (який багато зробив для просування стандартів браузера) для агентських утехнів.
Мені здається, що всі ми відчули різницю в Codex 5.4 Extra High (якщо ні — припиніть читати цей пост і спробуйте негайно), але ми досі не маємо способу зафіксувати у бенчмарку якісний досвід використання як розробника, особливо для таких показників, як архітектура та якість коду.
Найкращі
Рейтинг
Вибране
