Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Incontra Agent Bake-Off: test alla cieca affiancati per agenti di codifica come Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex e altri.
Abbiamo costruito i più grandi benchmark del mondo reale per agenti di codifica e siamo entusiasti di condividere un'anteprima della nostra strumentazione per la comunità aperta.
I dati sull'uso reale di come gli agenti vengono utilizzati e procurati diventeranno sempre più importanti man mano che gli agenti diventeranno mainstream.
Vogliamo che chiunque possa effettuare confronti equi, contribuire a classifiche pubbliche e radicare l'ecosistema nelle reali preferenze.
Provalo qui:
È super semplice in questo momento:
- scegli un repository pubblico preimpostato
- inserisci un compito
- lo eseguiamo su due agenti anonimi con lo stesso contesto
Alcuni compiti possono richiedere del tempo, quindi puoi facoltativamente inviare la tua email per ricevere una notifica quando i risultati sono pronti.

Quando finisce ottieni:
- output affiancati e differenze
- metadati come note di ragionamento, strumenti utilizzati e tempo impiegato
- un voto cieco per scegliere il risultato migliore
I tuoi voti e le tue esecuzioni alimentano le classifiche pubbliche della comunità.

Questa è ancora una versione molto preliminare, e siamo entusiasti di vedere cosa risulta utile per le persone.
Alcuni ambiti che stiamo esplorando sono: come potrebbe apparire una migliore UI/UX per la revisione del lavoro agentico parallelizzato, quali metadati e compiti sono preziosi, ecc.
*In particolare* per l'uso nel mondo reale
Aggiorneremo costantemente Agent Bake-Off per aggiungere più agenti di frontiera, altri sottoinsiemi di agenti (agenti di revisione PR, agenti di sicurezza/guardrail, ecc.), per vedere se le persone vogliono la possibilità di portare i propri repository pubblici/privati, ecc.
Stiamo lavorando duramente per costruire i più grandi benchmark e classifiche del mondo reale per gli agenti. Agent Bake-Off è un piccolo primo passo.
Per favore, provalo, vota e facci sapere cosa troveresti utile!!!
14,86K
Principali
Ranking
Preferiti

