Julkistamme cline-benchin, todellisen avoimen lähdekoodin mittarin agenttikoodaukseen. Cline-Bench on rakennettu osallistuvien kehittäjien todellisista insinööritehtävistä, joissa Frontier-mallit epäonnistuivat ja ihmisten piti puuttua peliin. Jokainen hyväksytty tehtävä muuttuu täysin toistettaviksi RL-ympäristöksi, jossa on aloitusrepon tilannekuva, todellinen kehote ja lopulta toimitetun koodin totuustestit. Laboratorioille ja tutkijoille tämä tarkoittaa: > voit arvioida malleja aidosta insinöörityöstä, et leetcode-pulmista. > saat ympäristöjä, jotka ovat yhteensopivia Harborin ja modernien arviointityökalujen kanssa rinnakkain vertailua varten. > voit käyttää samoja tehtäviä SFT:ssä ja RL:ssä, jotta koulutus ja arviointi pysyvät oikeissa insinöörityönkuluissa. Tänään avaamme lahjoitukset ja aloitamme tehtävien keräämisen Cline Providerin kautta. Osallistuminen on vapaaehtoista ja rajoitettu avoimen lähdekoodin repoihin. Kun vaikea tehtävä pysäyttää mallin ja sinä puutut asiaan, epäonnistuminen voidaan muuttaa standardoiduksi ympäristöksi, jossa koko yhteisö voi tutkia, vertailla ja harjoitella. Jos työskentelet vaikeiden avoimen lähdekoodin ongelmien parissa, erityisesti kaupallisten käyttöjärjestelmien parissa, haluaisin henkilökohtaisesti kutsua sinut auttamaan. Sitoudumme 1 miljoonan dollarin rahoitukseen, jotta avoimen lähdekoodin ylläpitäjät voivat osallistua cline-bench-hankkeeseen. "Cline-bench on erinomainen esimerkki siitä, miten avoimet, todelliset vertailuarvot voivat viedä koko ekosysteemiä eteenpäin. Korkealaatuiset, varmennetut koodaustehtävät, jotka perustuvat todellisiin kehittäjätyönkulkuihin, ovat juuri sitä, mitä tarvitsemme merkittävään rajamallien mittaamiseen, vikatilanteiden paljastamiseen ja huipputeknologian kehittämiseen." – @shyamalanadkat, sovellettujen arviointien johtaja @OpenAI "Nous Research keskittyy kouluttamaan ja lisäämään malleja, jotka menestyvät todellisissa tehtävissä. Cline-Bench tulee olemaan olennainen työkalu pyrkimyksissämme maksimoida suorituskyky ja ymmärtää malliemme kyvykkyydet." – @Teknium, Post Training @nousresearch -osaston johtaja "Olemme suuria faneja kaikelle, mitä Cline on tehnyt vahvistaakseen avoimen lähdekoodin tekoälyekosysteemiä, ja olemme erittäin innoissamme tukemassa cline-bench-julkaisua. Korkealaatuiset avoimet ympäristöt agenttikoodaukseen ovat erittäin harvinaisia. Tämä julkaisu tulee olemaan merkittävä sekä kyvykkyyksien arviointina että koulutuksen jälkeisenä testialustana haastaville todellisille tehtäville, edistäen yhteistä ymmärrystämme ja kyvykkyyttämme autonomisen ohjelmistokehityksen ympärillä." – @willccbb, tutkimusvetäjä @PrimeIntellect: "Jaamme Clinen sitoutumisen avoimeen lähdekoodiin ja uskomme, että tämän vertailun saatavuus kaikille auttaa meitä jatkamaan LLM-koodien raja-ominaisuuksien kehittämistä." – @b_roziere, tutkija @MistralAI: Täydelliset tiedot löytyvät blogista: