Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Saoud Rizwan
Acum câteva zile, un tweet al șefului nostru de AI a ofensat mulți oameni. Deși nu cred că tweet-ul său inițial a fost intenționat să fie ofensator, răspunsul său de a refuza să-și ceară scuze nu reflectă poziția mea sau a lui Cline. Recunoaștem că acest lucru a cauzat durere reală și că merită recunoaștere și empatie.
Nu mai este cu Cline. Deși nu am fost de acord cu modul în care a reacționat, nimeni nu merită amenințările și abuzurile pe care le-a primit. Vă rog să-l lăsați pe el și familia lui în pace.
Tuturor celor care au fost răniți de asta – îmi pare rău.
309
Cline v3.39 poate acum genera comentarii diferite pentru a explica modificările pe care le face 🚀 Poți de asemenea să ceri ajutor pentru revizuirea pull request-urilor, commit-urilor recente și altele! Scrierea codului este ușoară – revizuirea și aprobarea sunt noul obstacol, iar noi suntem entuziasmați să încercați această nouă funcție.
271
Agenții de codare au dificultăți la muncă complexă în depozite mari și dezordonate, iar situația nu se va îmbunătăți până nu vom înceta să folosim benchmark-uri saturate cu teste care nu seamănă deloc cu ingineria reală.
De aceea investim 1 milion de dolari în cline-bench, reperul nostru deschis pentru sarcinile reale de programare!

pash21 nov. 2025
Anunțăm cline-bench, un benchmark open source real pentru codarea agentică.
Cline-bench este construit din sarcini de inginerie reale realizate de dezvoltatorii participanți, unde modelele de frontieră au eșuat și oamenii au trebuit să intervină.
Fiecare sarcină acceptată devine un mediu RL complet reproductibil, cu un snapshot al repo-ului de pornire, un prompt real și teste de adevăr la bază din codul care a fost livrat în cele din urmă.
Pentru laboratoare și cercetători, aceasta înseamnă:
> poți evalua modele pe muncă inginerească autentică, nu pe puzzle-uri leetcode.
> ai medii compatibile cu Harbor și unelte moderne de evaluare pentru comparație comparativ unul lângă altul.
> poți folosi aceleași sarcini pentru SFT și RL, astfel încât instruirea și evaluarea să rămână ancorate în fluxurile reale de lucru inginerești.
Astăzi deschidem contribuțiile și începem să colectăm sarcini prin intermediul Cline Provider. Participarea este opțională și limitată la depozitele open source.
Când o sarcină dificilă blochează un model și tu intervii, acel eșec poate fi transformat într-un mediu standardizat pe care întreaga comunitate îl poate studia, evalua și antrena.
Dacă lucrezi la probleme open source dificile, în special OSS comercial, aș dori să te invit personal să mă ajuți. Angajăm 1 milion de dolari pentru a sponsoriza întreținătorii open source care să participe la inițiativa cline-bench.
"Cline-bench este un exemplu excelent despre cum reperele deschise, reale, pot avansa întregul ecosistem. Sarcinile de codare de înaltă calitate, verificate, bazate pe fluxurile de lucru reale ale dezvoltatorilor, sunt exact ceea ce avem nevoie pentru a măsura în mod semnificativ modelele de frontieră, a descoperi modurile de eșec și a împinge stadiul artei."
– @shyamalanadkat, Șeful Evaluărilor Aplicate @OpenAI
"Nous Research se concentrează pe antrenarea și proliferarea modelelor care excelează în sarcini reale. Cline-bench va fi un instrument esențial în eforturile noastre de a maximiza performanța și de a înțelege capacitățile modelelor noastre."
– @Teknium, Șeful Post-Training @nousresearch
"Suntem mari fani ai tot ceea ce a făcut Cline pentru a împuternici ecosistemul AI open source și suntem extrem de entuziasmați să susținem lansarea cline-bench. Mediile deschise de înaltă calitate pentru codarea agentică sunt extrem de rare. Această versiune va avea un impact semnificativ atât ca evaluare a capacităților, cât și ca un teren de testare post-antrenament pentru sarcini reale provocatoare, avansând înțelegerea și capacitățile noastre colective privind dezvoltarea software autonomă."
– @willccbb, Lider de Cercetare @PrimeIntellect:
"Împărtășim angajamentul lui Cline față de open source și credem că punerea la dispoziția acestui benchmark tuturor ne va ajuta să continuăm să depășim capacitățile de codare de frontieră ale LLM-urilor noastre."
– @b_roziere, cercetător @MistralAI:
Detalii complete se găsesc pe blog:

276
Limită superioară
Clasament
Favorite
