Мы объявляем о запуске cline-bench, реального открытого бенчмарка для агентного кодирования. cline-bench основан на реальных инженерных задачах от участвующих разработчиков, где передовые модели потерпели неудачу, и людям пришлось вмешаться. Каждая принятая задача становится полностью воспроизводимой средой RL с начальным снимком репозитория, реальным запросом и тестами с истинными данными из кода, который в конечном итоге был выпущен. Для лабораторий и исследователей это означает: > вы можете оценивать модели на подлинной инженерной работе, а не на задачах leetcode. > вы получаете среды, совместимые с Harbor и современными инструментами оценки для параллельного сравнения. > вы можете использовать одни и те же задачи для SFT и RL, чтобы обучение и оценка оставались привязанными к реальным инженерным рабочим процессам. Сегодня мы открываем возможность для вкладов и начинаем собирать задачи через Cline Provider. Участие является добровольным и ограничено открытыми репозиториями. Когда сложная задача ставит модель в тупик, и вы вмешиваетесь, эта неудача может быть превращена в стандартизированную среду, которую вся сообщество может изучать, оценивать и обучаться на ней. Если вы работаете над сложными проблемами открытого кода, особенно коммерческими OSS, я хотел бы лично пригласить вас помочь. Мы выделяем 1 миллион долларов для спонсирования поддерживающих открытый код, чтобы участвовать в инициативе cline-bench. "Cline-bench является отличным примером того, как открытые, реальные бенчмарки могут продвигать всю экосистему вперед. Задачи по кодированию высокого качества, проверенные и основанные на реальных рабочих процессах разработчиков, именно то, что нам нужно, чтобы значимо измерять передовые модели, выявлять режимы неудач и продвигать состояние искусства." – @shyamalanadkat, Руководитель прикладных оценок @OpenAI "Nous Research сосредоточена на обучении и распространении моделей, которые превосходят в реальных задачах. cline-bench станет неотъемлемым инструментом в наших усилиях максимизировать производительность и понять возможности наших моделей." – @Teknium, Руководитель постобучения @nousresearch "Мы большие поклонники всего, что делает Cline для поддержки экосистемы открытого кода AI, и невероятно рады поддержать выпуск cline-bench. Открытые среды высокого качества для агентного кодирования крайне редки. Этот выпуск значительно продвинет как оценку возможностей, так и как тестовую площадку после обучения для сложных реальных задач, продвигая наше общее понимание и возможности в области автономной разработки программного обеспечения." – @willccbb, Руководитель исследований @PrimeIntellect: "Мы разделяем приверженность Cline открытым исходным кодам и считаем, что предоставление этого бенчмарка всем поможет нам продолжать продвигать передовые возможности кодирования наших LLM." – @b_roziere, Научный сотрудник @MistralAI: Полные детали в блоге: