Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Răspund la câteva întrebări despre Esolang-Bench-ul nostru.
a) De ce să faci asta? Măsoară ceva util?
A fost un proiect motivat de curiozitate. Suntem interesați de modul în care oamenii manifestă eficiența eșantionului în procesul de învățare și generalizarea OOD. Așadar, am întrebat pur și simplu: dacă modelele pot zero/puține răspunsuri corecte la probleme simple de programare în Python, pot face același lucru și în limbaje ezoterice?
Reperul este ceea ce este. Diferite persoane pot interpreta utilitatea ei diferit, iar noi încurajăm acest lucru.
b) Dar oamenii nu pot scrie bine nici limbi ezoterice. Este o comparație nedreaptă.
În principal, ne interesează măsurarea capabilităților LLM-urilor. Având în vedere discuțiile despre ASI, se presupune că capacitățile lor vor deveni în curând supraomenești. Așadar, motivația noastră principală nu a fost să ne comparăm cu oamenii, ci să verificăm ce pot face aceștia, acest reper dificil prin construcție.
Totuși, credem că oamenii pot să se învețe singuri un domeniu nou transferându-și vechile abilități. Așadar, acest benchmark a fost menit să stabilească un punct de plecare pentru a explora cum pot și sistemele AI să facă același lucru (ceea ce explorăm acum)
c) Dar Claude Code o impresionează. Ați limitat modelele artificial.
Da, am testat modele cu capabilități de zero și puține cadre. Iar în bucla agentică pe care o descriem în lucrare, limităm numărul de iterații. Așa cum am scris mai sus, am vrut să înțelegem performanța lor dintr-un punct de vedere comparativ (de exemplu pe limbaje foarte reprezentate precum Python) și asta, conform benchmark-ului prin design, este așa.
După finalizarea lucrării, am experimentat cu sisteme agențice în care am oferit modelelor instrumente precum bash și am permis iterații nelimitate (dar încercări limitate de trimitere). Într-adevăr, performează mult mai bine.
Întrebarea relevantă este ce face ca aceste modele să funcționeze atât de bine atunci când le dai unelte și iterații versus când nu. Raționament/învață ca oamenii sau este altceva?
d) Deci, sunt LLM-urile entuziasmate? Sau studiul nostru este clickbait?
Hârtia, codul și benchmark-ul sunt toate open source 👇
Încurajăm pe oricine este interesat să o citească și să-și formeze propria opinie.
(Nu am putut să nu observăm că *același* set de rezultate au fost interpretate foarte diferit în cadrul comunității. A urmat o dezbatere între taberele opuse ale LLM-urilor. Poate că asta e un lucru bun?)
Limită superioară
Clasament
Favorite
