Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
// DE ZAAK VOOR OMGEVINGSCHALING //
Omgevingsschaling kan net zo belangrijk zijn als modelschaling voor agentische AI.
Huidig AI-onderzoek suggereert dat het bouwen van een krachtig agentisch AI-model niet alleen gaat om beter redeneren. Het gaat ook om betere omgevingen.
De standaardaanpak voor het trainen van capabele AI-agenten vandaag de dag is het verzamelen van statische trajecten of menselijke demonstraties. Dit vereist meer data, meer voorbeelden en meer annotatie-inspanning.
Maar statische data kan dynamisch besluitvorming niet onderwijzen. Modellen die op deze manier zijn getraind, hebben moeite met de lange termijn, doelgerichte aard van echte agentische taken.
Dit nieuwe onderzoek introduceert Nex-N1, een framework dat systematisch de diversiteit en complexiteit van interactieve trainingsomgevingen schaalt in plaats van alleen data te schalen.
Agentcapaciteiten ontstaan uit interactie, niet imitatie. In plaats van meer demonstraties te verzamelen, hebben ze infrastructuur gebouwd om automatisch diverse agentarchitecturen en workflows te genereren vanuit natuurlijke taalspecificaties.
Het systeem heeft drie componenten. NexAU (Agent Universe) biedt een universeel agentframework dat complexe agenthiërarchieën genereert vanuit eenvoudige configuraties. NexA4A (Agent voor Agent) synthetiseert automatisch diverse agentarchitecturen vanuit natuurlijke taal. NexGAP overbrugt de kloof tussen simulatie en realiteit door echte MCP-tools te integreren voor gegronde trajectsynthetisering.
Resultaten:
- Op de τ2-bench scoorde Nex-N1, gebouwd op DeepSeek-V3.1, 80.2, wat beter is dan de basismodelscore van 42.8.
- Op SWE-bench Verified behaalt Qwen3-32B-Nex-N1 50.5% vergeleken met de basismodelscore van 12.9%.
- Op BFCL v4 voor gereedschapsgebruik presteert Nex-N1 (65.3) beter dan GPT-5 (61.6).
In menselijke evaluaties van echte projectontwikkeling over 43 coderingsscenario's wint of gelijk speelt Nex-N1 tegen Claude Sonnet 4.5 in 64.5% van de gevallen en tegen GPT-5 in ~70% van de gevallen.
Ze hebben ook een diep onderzoeksagent gebouwd op Nex-N1, met een score van 47.0% op de Deep Research Benchmark, met mogelijkheden voor gevisualiseerde rapportgeneratie, inclusief dia's en onderzoeksaffiches.
Paper:

Boven
Positie
Favorieten

