DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Saoud Rizwan

Agenții de codare au dificultăți la muncă complexă în depozite mari și dezordonate, iar situația nu se va îmbunătăți până nu vom înceta să folosim benchmark-uri saturate cu teste care nu seamănă deloc cu ingineria reală. De aceea investim 1 milion de dolari în cline-bench, reperul nostru deschis pentru sarcinile reale de programare!

Anunțăm cline-bench, un benchmark open source real pentru codarea agentică. Cline-bench este construit din sarcini de inginerie reale realizate de dezvoltatorii participanți, unde modelele de frontieră au eșuat și oamenii au trebuit să intervină. Fiecare sarcină acceptată devine un mediu RL complet reproductibil, cu un snapshot al repo-ului de pornire, un prompt real și teste de adevăr la bază din codul care a fost livrat în cele din urmă. Pentru laboratoare și cercetători, aceasta înseamnă: > poți evalua modele pe muncă inginerească autentică, nu pe puzzle-uri leetcode. > ai medii compatibile cu Harbor și unelte moderne de evaluare pentru comparație comparativ unul lângă altul. > poți folosi aceleași sarcini pentru SFT și RL, astfel încât instruirea și evaluarea să rămână ancorate în fluxurile reale de lucru inginerești. Astăzi deschidem contribuțiile și începem să colectăm sarcini prin intermediul Cline Provider. Participarea este opțională și limitată la depozitele open source. Când o sarcină dificilă blochează un model și tu intervii, acel eșec poate fi transformat într-un mediu standardizat pe care întreaga comunitate îl poate studia, evalua și antrena. Dacă lucrezi la probleme open source dificile, în special OSS comercial, aș dori să te invit personal să mă ajuți. Angajăm 1 milion de dolari pentru a sponsoriza întreținătorii open source care să participe la inițiativa cline-bench. "Cline-bench este un exemplu excelent despre cum reperele deschise, reale, pot avansa întregul ecosistem. Sarcinile de codare de înaltă calitate, verificate, bazate pe fluxurile de lucru reale ale dezvoltatorilor, sunt exact ceea ce avem nevoie pentru a măsura în mod semnificativ modelele de frontieră, a descoperi modurile de eșec și a împinge stadiul artei." – @shyamalanadkat, Șeful Evaluărilor Aplicate @OpenAI "Nous Research se concentrează pe antrenarea și proliferarea modelelor care excelează în sarcini reale. Cline-bench va fi un instrument esențial în eforturile noastre de a maximiza performanța și de a înțelege capacitățile modelelor noastre." – @Teknium, Șeful Post-Training @nousresearch "Suntem mari fani ai tot ceea ce a făcut Cline pentru a împuternici ecosistemul AI open source și suntem extrem de entuziasmați să susținem lansarea cline-bench. Mediile deschise de înaltă calitate pentru codarea agentică sunt extrem de rare. Această versiune va avea un impact semnificativ atât ca evaluare a capacităților, cât și ca un teren de testare post-antrenament pentru sarcini reale provocatoare, avansând înțelegerea și capacitățile noastre colective privind dezvoltarea software autonomă." – @willccbb, Lider de Cercetare @PrimeIntellect: "Împărtășim angajamentul lui Cline față de open source și credem că punerea la dispoziția acestui benchmark tuturor ne va ajuta să continuăm să depășim capacitățile de codare de frontieră ale LLM-urilor noastre." – @b_roziere, cercetător @MistralAI: Detalii complete se găsesc pe blog:

Limită superioară

Clasament

Favorite