Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Verdent scoret 76,1 % på SWE-bench Verified, og havnet i toppsjiktet sammen med Claude Sonnet 4.5 og andre ledende modeller.
Verdent er et AI-kodesystem med flere agenter bygget for ekte ingeniørarbeid. Den orkestrerer spesialiserte underagenter gjennom en plan-kode-verifiseringsarbeidsflyt med verifiserings-først-arkitektur.
Flere detaljer nedenfor 👇

SWE-bench Verified bruker ekte GitHub-problemer fra produksjonsrepositorier - de komplekse problemene med flere filer som skiller faktiske kodeagenter fra glorifisert autofullføring. 76,1 % pass@1 betyr å løse 3 av 4 reelle ingeniøroppgaver autonomt.
Hvorfor Verdent utmerker seg på SWE-benk Verifisert:
Kompatibilitet med flere modeller: Modellagnostisk kjøretid matcher riktig modell til hvert trinn (Claude for analyse, GPT-5 for gjennomgang). Konsistent ytelse med full gjennomsiktighet og konfigurerbarhet.
Verifisering på autopilot: Innebygd typekontroll, statisk analyse, testkjøring med automatiske forsøks-/feilsøkingssykluser. Underagenter for kodegjennomgang håndterer store forskjeller. Går utover å «bestå tester» til å «møte utviklerens intensjon».
Alltid på-oppgave: Eksplisitt gjøremålsliste sporer fremdrift, forhindrer kontekstavvik i lange økter. Speiler arbeidsflyten for menneskelige utviklere trinn for trinn, noe som forbedrer suksessraten og tokeneffektiviteten.
Arbeidsflyten Plan-Code-Verify:
1. Planmodus: Strukturerte, redigerbare utførelsesplaner
2. Sub-agent orkestrering: Spesialiserte agenter (søker, korrekturleser, verifikator) Brukerdefinert kontroll gjennom agentiske regler (agenter md) med tilpassbar oppførsel: forsiktighetsnivåer, tillatelser, samarbeidsstiler
3. DiffLens: Tydelig kodelevering med organiserte diffs + sammendrag
4. Hold deg alltid til oppgaven med eksplisitt fremdriftssporing

Produksjonsklare funksjoner som strekker seg utover benchmarks:
- Langvarig terminal (tmux-stil persistens)
- Skråstrekkommandoer (/init, /compact, tilpasset automatisering)
- MCP-støtte (Model Context Protocol)
- VS Code-utvidelse + frittstående parallell oppgaveapp (Verdent Deck)
Tenkning betyr noe: Verdents eksperimenter viser at flere resonneringstokens fører til bedre ytelse. De fant ~0,7 % forbedring når de ga modellene mer "tenketid" - noe som beviser at forhastet kode ikke er god kode, selv for AI.

Leverandøravvik: Ikke alle modellleverandører er like. Testingen deres avslørte at noen leverandører (som AWS Bedrock) viser høyere ytelsesvarians - opptil 1,2 % gap under identiske forhold. Velg infrastrukturen din med omhu.
Overraskende oppdagelse: Da de strippet Verdent ned til bare grunnleggende verktøy (bash, les, skriv, rediger), endret SWE-bench Verifisert ytelse seg knapt.
Dette avslører potensiell referanseskjevhet - sofistikerte verktøy er viktige for ekte ingeniørarbeid, men nåværende referanser fanger kanskje ikke opp denne kompleksiteten.
Bygget av tidligere TikTok- og Baidu-ingeniører. Verdent forener bransjeledende modeller som GPT-5 og Sonnet 4.5 i et utviklersentrert system. Slik ser agentkoding ut når den er bygget for ekte ingeniørarbeid.  Du kan starte gratis prøveversjon her:
7,96K
Topp
Rangering
Favoritter

