Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pitkän aikavälin koodausagenttien vertailu
Tekoälykoodausagentit näyttävät vaikuttavilta nykyisissä koodaustesteissä. Mutta nuo benchmarkit usein optimoivat ja testaavat väärää asiaa.
Tämä uusi tutkimus esittelee SWE-EVO:n, joka on mittapuu pitkän aikavälin ohjelmistokehitykselle.
Jopa 80 % ohjelmistokehityksestä liittyy vanhojen koodipohjien ylläpitoon ja kehittämiseen sen sijaan, että rakentaisimme alusta asti. Nykyiset vertailuarvot ohittavat tämän kokonaan. SWE-EVO paljastaa kuilun yksittäisten ongelmien ratkaisemisen ja todellisen ohjelmistokehityksen välillä.
Yksittäisten ongelmakorjausten sijaan agenttien on tulkittava julkaisumuistiinpanoja ja toteutettava kattavia muutoksia, jotka kattavat keskimäärin 21 tiedostoa, validoituna testisarjoja vastaan, joiden keskiarvo on 874 testiä per instanssi.
GPT-5 OpenHandsilla saavuttaa 65 % SWE-Bench Verifiedissä, mutta vain 21 % SWE-EVO:ssa.
Kirjoittajat havaitsevat, että nykyiset agentit kamppailevat jatkuvan, monitiedostoisen päättelyn kanssa.
Benchmark on koottu seitsemän kypsän avoimen lähdekoodin Python-projektin julkaisumuistiinpanoista, mukaan lukien scikit-learn, pydantic ja dask. Jokainen tehtävä vaatii muutosten toteuttamista, jotka normaalisti kattaisivat useita pull-pyyntöjä. Kultaiset patchit sisältävät keskimäärin 610 riviä muokattuna 21 tiedostossa ja 51 toiminnossa.
11 mallin tulokset paljastavat johdonmukaisia kuvioita. Suuremmat mallit päihittävät pienemmät versiot. GPT-5 ratkaisee 21 %, kun taas GPT-5-mini on 10 % ja GPT-5-nano 4 %. Sijoitus heijastaa SWE-Benchin suorituskykyä, mikä vahvistaa SWE-EVO:n merkittävänä vertailuarvona.
Vika-analyysi osoittaa mallin ominaisuuksien mukaan erilaisia kuvioita. Vahvimmat mallit epäonnistuvat pääasiassa ohjeiden noudattamisessa, tulkiten väärin vivahteikkaita julkaisumuistiinpanoja. Heikommat mallit kamppailevat työkalujen käytön ja syntaksivirheiden kanssa. Tämä viittaa siihen, että SWE-EVO-vaikeus johtuu semanttisesta päättelystä, ei käyttöliittymäosaamisesta.
Artikkeli:
Opettele rakentamaan tehokkaita tekoälyagentteja akatemiassani:

Johtavat
Rankkaus
Suosikit
