Dieses Papier des LongCat-Teams behandelt eine Frage, die in der modernen KI-Forschung unvermeidlich wird: Warum haben Denkmodelle, die in Benchmarks brillant aussehen, immer noch Schwierigkeiten, wenn sie in reale, chaotische Umgebungen eingesetzt werden? Die Autoren stellen LongCat-Flash-Thinking-2601 vor, ein 560B-Parameter-Mischmodell von Experten, das nicht nur denken, sondern auch handeln soll. Die zentrale Behauptung ist, dass agentisches Denken nicht allein aus einer besseren Kette von Gedanken entsteht. Es entsteht aus nachhaltiger Interaktion mit Umgebungen, Werkzeugen, Lärm und Misserfolg. Der technische Schritt ist subtil, aber wichtig. Anstatt das Denken als statisches Textproblem zu behandeln, rahmt das Papier es als einen geschlossenen Prozess ein: beobachten → planen → handeln → Feedback erhalten → überarbeiten. Dieser Wandel zwingt überall zu Veränderungen: Datenkonstruktion, Trainingsalgorithmen, Infrastruktur und sogar das Verhalten zur Inferenzzeit. Ein wesentlicher Beitrag ist die Skalierung der Umgebung. Anstatt sich auf einige handgefertigte Agentenbenchmarks zu verlassen, bauen die Autoren eine automatisierte Pipeline, die über 10.000 ausführbare Umgebungen in mehr als 20 Domänen generiert. Jede Umgebung ist in realen Werkzeugabhängigkeiten, verifizierten Datenbanken und mehreren gültigen Lösungswegen verankert. Die Schwierigkeit skaliert strukturell, nicht heuristisch. Das Training in diesen Umgebungen würde normalerweise unter Lärm zusammenbrechen. Daher modelliert das Papier ausdrücklich die Unvollkommenheiten der realen Welt: mehrdeutige Anweisungen, Werkzeugfehler, partielle Ausgaben. Lärm wird nicht als Randfall behandelt. Er ist in den Lehrplan eingebaut, wobei die Komplexität schrittweise zunimmt, sodass Robustheit gelernt und nicht später gepatcht wird. Darüber hinaus erweitern sie das asynchrone Verstärkungslernen (DORA), um langanhaltende, mehrstufige Interaktionen in großem Maßstab zu bewältigen, und halten das Training stabil, selbst bei zehntausenden gleichzeitigen Umgebungen. Zur Inferenzzeit führt das Modell den Heavy Thinking Mode ein. Anstatt einer langen Gedankenfolge führt es parallele Denkpfade aus und aggregiert sie dann durch eine sekundäre reflektierende Phase. Dies skaliert sowohl die Tiefe als auch die Breite des Denkens und übertrifft konsequent die Selbstkonsistenz bei komplexen Aufgaben. Die Ergebnisse sind beeindruckend. LongCat-Flash-Thinking-2601 setzt neue Maßstäbe unter Open-Source-Modellen bei agentischen Benchmarks wie BrowseComp, τ²-Bench und VitaBench, während es wettbewerbsfähig mit geschlossenen Modellen in Mathematik, Programmierung und Suche bleibt. Wichtiger ist, dass die Leistung unter lauten Bedingungen viel weniger abnimmt. Die breitere Implikation ist unangenehm, aber klar: Die Qualität des Denkens ist nicht mehr der Engpass. Generalisierung ist es. Und Generalisierung kommt aus Umgebungen, nicht aus Eingabeaufforderungen. Dieses Papier argumentiert, dass wir, wenn wir Agenten wollen, die außerhalb von Demos funktionieren, aufhören müssen, sie in sauberen, imaginären Welten zu trainieren. Echte Intelligenz wird dort geschmiedet, wo Dinge kaputtgehen. Papier: LongCat-Flash-Thinking-2601 Technischer Bericht