PŘÍPAD ŠKÁLOVÁNÍ PROSTŘEDÍ // Škálování prostředí může být stejně důležité jako škálování modelů pro agentickou AI. Současný výzkum AI naznačuje, že vytvoření výkonného agentického AI modelu není jen o lepším uvažování. Jde také o lepší prostředí. Výchozím přístupem k tréninku schopných AI agentů je dnes sbírání statických trajektorií nebo lidských demonstrací. To vyžaduje více dat, více příkladů a více anotace. Ale statická data nemohou naučit dynamické rozhodování. Modely trénované tímto způsobem mají potíže s dlouhodobým, cílevědomým charakterem skutečných agentických úkolů. Tento nový výzkum představuje Nex-N1, framework, který systematicky škáluje rozmanitost a složitost interaktivních tréninkových prostředí, nikoli pouze škálování dat. Schopnosti agentů vznikají z interakce, nikoli z napodobování. Místo shromažďování dalších demonstrací vybudovali infrastrukturu, která automaticky generovala rozmanité architektury a pracovní postupy agentů na základě specifikací přirozeného jazyka. Systém má tři komponenty. NexAU (Agent Universe) poskytuje univerzální rámec agentů, který generuje složité hierarchie agentů z jednoduchých konfigurací. NexA4A (Agent for Agent) automaticky syntetizuje různé architektury agentů z přirozeného jazyka. NexGAP překonává propast mezi simulací a realitou integrací reálných MCP nástrojů pro syntézu uzemněné trajektorie. Výsledky: - Na lavici τ2 dosahuje Nex-N1 postavený na DeepSeek-V3.1 skóre 80,2, což překoná základní model s 42,8. - Na SWE-bench Verified dosahuje Qwen3-32B-Nex-N1 50,5 % oproti základnímu modelu 12,9 %. - Na BFCL v4 pro použití nástrojů Nex-N1 (65.3) překonává GPT-5 (61.6). V lidských hodnoceních reálného vývoje projektů napříč 43 programátorskými scénáři vyhrává nebo remizuje Nex-N1 s Claude Sonnetem 4,5 v 64,5 % případů a s GPT-5 v ~70 % případů. Také vytvořili agenta pro hluboký výzkum na Nex-N1, který dosáhl 47,0 % na Deep Research Benchmark, s možnostmi vizualizovaného generování zpráv, včetně diapozitivů a výzkumných plakátů. Papír: