Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Мы объявляем о запуске cline-bench, реального открытого бенчмарка для агентного кодирования.
cline-bench основан на реальных инженерных задачах от участвующих разработчиков, где передовые модели потерпели неудачу, и людям пришлось вмешаться.
Каждая принятая задача становится полностью воспроизводимой средой RL с начальным снимком репозитория, реальным запросом и тестами с истинными данными из кода, который в конечном итоге был выпущен.
Для лабораторий и исследователей это означает:
> вы можете оценивать модели на подлинной инженерной работе, а не на задачах leetcode.
> вы получаете среды, совместимые с Harbor и современными инструментами оценки для параллельного сравнения.
> вы можете использовать одни и те же задачи для SFT и RL, чтобы обучение и оценка оставались привязанными к реальным инженерным рабочим процессам.
Сегодня мы открываем возможность для вкладов и начинаем собирать задачи через Cline Provider. Участие является добровольным и ограничено открытыми репозиториями.
Когда сложная задача ставит модель в тупик, и вы вмешиваетесь, эта неудача может быть превращена в стандартизированную среду, которую вся сообщество может изучать, оценивать и обучаться на ней.
Если вы работаете над сложными проблемами открытого кода, особенно коммерческими OSS, я хотел бы лично пригласить вас помочь. Мы выделяем 1 миллион долларов для спонсирования поддерживающих открытый код, чтобы участвовать в инициативе cline-bench.
"Cline-bench является отличным примером того, как открытые, реальные бенчмарки могут продвигать всю экосистему вперед. Задачи по кодированию высокого качества, проверенные и основанные на реальных рабочих процессах разработчиков, именно то, что нам нужно, чтобы значимо измерять передовые модели, выявлять режимы неудач и продвигать состояние искусства."
– @shyamalanadkat, Руководитель прикладных оценок @OpenAI
"Nous Research сосредоточена на обучении и распространении моделей, которые превосходят в реальных задачах. cline-bench станет неотъемлемым инструментом в наших усилиях максимизировать производительность и понять возможности наших моделей."
– @Teknium, Руководитель постобучения @nousresearch
"Мы большие поклонники всего, что делает Cline для поддержки экосистемы открытого кода AI, и невероятно рады поддержать выпуск cline-bench. Открытые среды высокого качества для агентного кодирования крайне редки. Этот выпуск значительно продвинет как оценку возможностей, так и как тестовую площадку после обучения для сложных реальных задач, продвигая наше общее понимание и возможности в области автономной разработки программного обеспечения."
– @willccbb, Руководитель исследований @PrimeIntellect:
"Мы разделяем приверженность Cline открытым исходным кодам и считаем, что предоставление этого бенчмарка всем поможет нам продолжать продвигать передовые возможности кодирования наших LLM."
– @b_roziere, Научный сотрудник @MistralAI:
Полные детали в блоге:

Топ
Рейтинг
Избранное

