Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

pash
Tällä hetkellä AI @cline | Edellinen @meta tietokaavio | Holvin luoja // @usc aluna
Se on ollut intensiivinen 48 tuntia minulle ja tiimilleni.
Selvennykseksi, en aio pyytää anteeksi harmitonta vitsiä hackathoneista, jotka haisevat pahalta. Olen käynyt neljässä tänä vuonna, kaikki haisivat pahalta.
Odotan anteeksipyyntöä ihmisiltä kuten @deedydas, joiden kanssa minulla on ollut lukuisia positiivisia kohtaamisia. Sen sijaan, että olisivat olleet hyväntekeväisiä minulle ja antaneet minulle armon simulaarin, he hyökkäsivät kimppuuni ja mahdollistivat järjettömiä, väkivaltaisia ja todella vastenmielisiä kuolemanuhkauksia minua, perhettäni ja tiimiäni vastaan.
Tämä on naurettavaa, ja näyttää siltä, että kun X:stä tehdään rahaa, ihmiset kannustetaan raivoamaan ja vahvistamaan järjettömiä väkivaltaisia uhkauksia tällä alustalla.
@elonmusk Twitter-hankinnasi tarkoitus ollut antaa meidän tehdä vitsejä ja pitää hauskaa rauhassa? Näyttää siltä, ettei se toimi.
Kiitos kaikille järkeville ihmisille, jotka seisoivat rinnallani. Arvostan teitä kaikkia.
207
Julkistamme cline-benchin, todellisen avoimen lähdekoodin mittarin agenttikoodaukseen.
Cline-Bench on rakennettu osallistuvien kehittäjien todellisista insinööritehtävistä, joissa Frontier-mallit epäonnistuivat ja ihmisten piti puuttua peliin.
Jokainen hyväksytty tehtävä muuttuu täysin toistettaviksi RL-ympäristöksi, jossa on aloitusrepon tilannekuva, todellinen kehote ja lopulta toimitetun koodin totuustestit.
Laboratorioille ja tutkijoille tämä tarkoittaa:
> voit arvioida malleja aidosta insinöörityöstä, et leetcode-pulmista.
> saat ympäristöjä, jotka ovat yhteensopivia Harborin ja modernien arviointityökalujen kanssa rinnakkain vertailua varten.
> voit käyttää samoja tehtäviä SFT:ssä ja RL:ssä, jotta koulutus ja arviointi pysyvät oikeissa insinöörityönkuluissa.
Tänään avaamme lahjoitukset ja aloitamme tehtävien keräämisen Cline Providerin kautta. Osallistuminen on vapaaehtoista ja rajoitettu avoimen lähdekoodin repoihin.
Kun vaikea tehtävä pysäyttää mallin ja sinä puutut asiaan, epäonnistuminen voidaan muuttaa standardoiduksi ympäristöksi, jossa koko yhteisö voi tutkia, vertailla ja harjoitella.
Jos työskentelet vaikeiden avoimen lähdekoodin ongelmien parissa, erityisesti kaupallisten käyttöjärjestelmien parissa, haluaisin henkilökohtaisesti kutsua sinut auttamaan. Sitoudumme 1 miljoonan dollarin rahoitukseen, jotta avoimen lähdekoodin ylläpitäjät voivat osallistua cline-bench-hankkeeseen.
"Cline-bench on erinomainen esimerkki siitä, miten avoimet, todelliset vertailuarvot voivat viedä koko ekosysteemiä eteenpäin. Korkealaatuiset, varmennetut koodaustehtävät, jotka perustuvat todellisiin kehittäjätyönkulkuihin, ovat juuri sitä, mitä tarvitsemme merkittävään rajamallien mittaamiseen, vikatilanteiden paljastamiseen ja huipputeknologian kehittämiseen."
– @shyamalanadkat, sovellettujen arviointien johtaja @OpenAI
"Nous Research keskittyy kouluttamaan ja lisäämään malleja, jotka menestyvät todellisissa tehtävissä. Cline-Bench tulee olemaan olennainen työkalu pyrkimyksissämme maksimoida suorituskyky ja ymmärtää malliemme kyvykkyydet."
– @Teknium, Post Training @nousresearch -osaston johtaja
"Olemme suuria faneja kaikelle, mitä Cline on tehnyt vahvistaakseen avoimen lähdekoodin tekoälyekosysteemiä, ja olemme erittäin innoissamme tukemassa cline-bench-julkaisua. Korkealaatuiset avoimet ympäristöt agenttikoodaukseen ovat erittäin harvinaisia. Tämä julkaisu tulee olemaan merkittävä sekä kyvykkyyksien arviointina että koulutuksen jälkeisenä testialustana haastaville todellisille tehtäville, edistäen yhteistä ymmärrystämme ja kyvykkyyttämme autonomisen ohjelmistokehityksen ympärillä."
– @willccbb, tutkimusvetäjä @PrimeIntellect:
"Jaamme Clinen sitoutumisen avoimeen lähdekoodiin ja uskomme, että tämän vertailun saatavuus kaikille auttaa meitä jatkamaan LLM-koodien raja-ominaisuuksien kehittämistä."
– @b_roziere, tutkija @MistralAI:
Täydelliset tiedot löytyvät blogista:

461
Johtavat
Rankkaus
Suosikit

