Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ARGUMENTET FOR MILJØSKALERING //
Miljøskalering kan være like viktig som modellskalering for agentisk AI.
Nåværende AI-forskning antyder at det å bygge en kraftig agentisk AI-modell ikke bare handler om bedre resonnement. Det handler også om bedre miljøer.
Standardmetoden for å trene kapable AI-agenter i dag er å samle statiske baner eller menneskelige demonstrasjoner. Dette krever mer data, flere eksempler og mer annotasjonsarbeid.
Men statiske data kan ikke lære dynamisk beslutningstaking. Modeller som trenes på denne måten sliter med den langsiktige, målrettede naturen til reelle agentiske oppgaver.
Denne nye forskningen introduserer Nex-N1, et rammeverk som systematisk skalerer mangfoldet og kompleksiteten i interaktive treningsmiljøer i stedet for bare å skalere data.
Agentens evner oppstår gjennom interaksjon, ikke imitasjon. I stedet for å samle flere demonstrasjoner, bygde de infrastruktur for automatisk å generere ulike agentarkitekturer og arbeidsflyter basert på naturlige språkspesifikasjoner.
Systemet har tre komponenter. NexAU (Agent Universe) tilbyr et universelt agentrammeverk som genererer komplekse agenthierarkier fra enkle konfigurasjoner. NexA4A (Agent for Agent) syntetiserer automatisk ulike agentarkitekturer fra naturlig språk. NexGAP bygger bro mellom simulering og virkelighet ved å integrere virkelige MCP-verktøy for jordnær trajektoriesyntese.
Resultater:
- På τ2-benken scorer Nex-N1 bygget på DeepSeek-V3.1 80,2, og overgår basismodellens 42,8.
- På SWE-bench Verified oppnår Qwen3-32B-Nex-N1 50,5 % sammenlignet med basismodellens 12,9 %.
- På BFCL v4 for verktøybruk overgår Nex-N1 (65.3) GPT-5 (61.6).
I menneskelige evalueringer av reell prosjektutvikling på tvers av 43 kodescenarier vinner eller deler Nex-N1 mot Claude Sonnet 4.5 i 64,5 % av tilfellene og mot GPT-5 i ~70 % av tilfellene.
De bygde også en dyp forskningsagent på Nex-N1, og oppnådde 47,0 % på Deep Research Benchmark, med muligheter for visualisert rapportgenerering, inkludert lysbilder og forskningsplakater.
Papir:

Topp
Rangering
Favoritter

