Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
YMPÄRISTÖN SKAALAUKSEN PERUSTELUT //
Ympäristön skaalaus voi olla yhtä tärkeää kuin mallin skaalaus agenttiselle tekoälylle.
Nykyinen tekoälytutkimus viittaa siihen, että tehokkaan agenttisen tekoälymallin rakentaminen ei ole pelkästään paremmasta päättelystä kiinni. Kyse on myös paremmista ympäristöistä.
Nykyinen oletustapa kouluttaa kykeneviä tekoälyagentteja on kerätä staattisia lentoratoja tai ihmisdemonstraatioita. Tämä vaatii enemmän dataa, lisää esimerkkejä ja enemmän merkintötyötä.
Mutta staattinen data ei voi opettaa dynaamista päätöksentekoa. Tällä tavalla koulutetut mallit kamppailevat todellisten agenttien tehtävien pitkän aikavälin ja tavoitekeskeisen luonteen kanssa.
Tämä uusi tutkimus esittelee Nex-N1:n, viitekehyksen, joka systemaattisesti skaalaa interaktiivisten koulutusympäristöjen monimuotoisuutta ja monimutkaisuutta sen sijaan, että vain skaalaisi dataa.
Agenttikyvyt syntyvät vuorovaikutuksesta, eivät jäljittelystä. Sen sijaan, että kerättäisiin lisää demonstraatioita, he rakensivat infrastruktuurin, joka automaattisesti tuottaa erilaisia agenttiarkkitehtuureja ja työnkulkuja luonnollisen kielen määrittelyistä.
Järjestelmässä on kolme osaa. NexAU (Agent Universe) tarjoaa universaalin agenttikehyksen, joka generoi monimutkaisia agenttihierarkioita yksinkertaisista konfiguraatioista. NexA4A (Agent for Agent) yhdistää automaattisesti erilaisia agenttiarkkitehtuureja luonnollisesta kielestä. NexGAP kuroa umpeen simulaation ja todellisuuden välisen kuilun integroimalla todellisia MCP-työkaluja maadoitettuun trajektorian synteesiin varten.
Tulokset:
- τ2-benchillä DeepSeek-V3.1:lle rakennettu Nex-N1 saa 80,2 pistettä, mikä päihittää perusmallin 42,8.
- SWE-bench Verifiedissä Qwen3-32B-Nex-N1 saavuttaa 50,5 % arvosta verrattuna perusmallin 12,9 %:iin.
- BFCL v4:ssä työkalukäyttöön Nex-N1 (65.3) päihittää GPT-5:n (61.6).
Ihmisarvioinneissa todellisen maailman projektikehityksessä 43 koodausskenaariossa Nex-N1 voittaa tai tasapisteet Claude Sonnetin kanssa 4,5 % 64,5 % tapauksista ja GPT-5:stä ~70 % tapauksista.
He rakensivat myös syvätutkimusagentin Nex-N1:lle, saavuttaen 47,0 % Deep Research Benchmarkissa, ja siinä on kykyjä visualisoituun raporttien generointiin, mukaan lukien diat ja tutkimusjulisteet.
Paperi:

Johtavat
Rankkaus
Suosikit

