Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
// DAS ARGUMENT FÜR DIE SKALIERUNG VON UMGEBUNGEN //
Die Skalierung von Umgebungen könnte ebenso wichtig sein wie die Skalierung von Modellen für agentische KI.
Aktuelle KI-Forschung legt nahe, dass der Aufbau eines leistungsstarken agentischen KI-Modells nicht nur besseres Denken erfordert. Es geht auch um bessere Umgebungen.
Der Standardansatz zur Ausbildung fähiger KI-Agenten besteht heute darin, statische Trajektorien oder menschliche Demonstrationen zu sammeln. Dies erfordert mehr Daten, mehr Beispiele und mehr Annotierungsaufwand.
Aber statische Daten können kein dynamisches Entscheidungsfinden lehren. Modelle, die auf diese Weise trainiert werden, haben Schwierigkeiten mit der langfristigen, zielorientierten Natur realer agentischer Aufgaben.
Diese neue Forschung führt Nex-N1 ein, ein Framework, das systematisch die Vielfalt und Komplexität interaktiver Trainingsumgebungen skaliert, anstatt nur die Daten zu skalieren.
Agentenfähigkeiten entstehen aus Interaktion, nicht aus Nachahmung. Anstatt mehr Demonstrationen zu sammeln, haben sie eine Infrastruktur aufgebaut, um automatisch vielfältige Agentenarchitekturen und Arbeitsabläufe aus natürlichen Sprachspezifikationen zu generieren.
Das System hat drei Komponenten. NexAU (Agentenuniversum) bietet ein universelles Agenten-Framework, das komplexe Agentenhierarchien aus einfachen Konfigurationen generiert. NexA4A (Agent für Agent) synthetisiert automatisch vielfältige Agentenarchitekturen aus natürlicher Sprache. NexGAP überbrückt die Kluft zwischen Simulation und Realität, indem es reale MCP-Tools für die verankerte Trajektoriensynthese integriert.
Ergebnisse:
- Auf dem τ2-bench erzielt Nex-N1, das auf DeepSeek-V3.1 basiert, 80,2 und übertrifft damit den Basiswert von 42,8.
- Auf SWE-bench Verified erreicht Qwen3-32B-Nex-N1 50,5 % im Vergleich zu 12,9 % des Basismodells.
- Auf BFCL v4 für die Werkzeugnutzung übertrifft Nex-N1 (65,3) GPT-5 (61,6).
In menschlichen Bewertungen zur Entwicklung realer Projekte über 43 Codierungsszenarien gewinnt oder erzielt Nex-N1 in 64,5 % der Fälle ein Unentschieden gegen Claude Sonnet 4.5 und in ~70 % der Fälle gegen GPT-5.
Sie haben auch einen tiefen Forschungsagenten auf Nex-N1 aufgebaut, der 47,0 % im Deep Research Benchmark erreicht hat, mit Fähigkeiten zur visualisierten Berichtserstellung, einschließlich Folien und Forschungsplakaten.
Papier:

Top
Ranking
Favoriten

