Tento článek od týmu LongCat se zabývá otázkou, která se v moderním výzkumu AI stává nevyhnutelnou: proč mají modely uvažování, které vypadají skvěle na benchmarkech, stále zápasit i při vsazení do reálných, chaotických prostředí? Autoři představují LongCat-Flash-Thinking-2601, 560B-parametrový model Mixture-of-Experts navržený nejen k myšlení, ale i k jednání. Ústředním tvrzením je, že agentické uvažování nevzniká pouze z lepšího řetězce myšlení. Vzniká z dlouhodobé interakce s prostředím, nástroji, hlukem a selháním. Technický krok je nenápadný, ale důležitý. Místo toho, aby se uvažování považovalo za statický textový problém, článek jej rámuje jako uzavřený proces: pozorovat → plánovat → jednat→ přijímat zpětnou vazbu → revidovat. Tento posun nutí změny všude: ve konstrukci dat, tréninkových algoritmech, infrastruktuře a dokonce i chování v době inference. Hlavním přínosem je škálování životního prostředí. Místo spoléhání se na několik ručně vytvořených benchmarků agentů autoři vytvářejí automatizovaný pipeline, který generuje přes 10 000 spustitelných prostředí na 20+ doménách. Každé prostředí je založeno na skutečných závislostech nástrojů, ověřených databázích a více platných cestách řešení. Obtížnost škáluje strukturálně, ne heuristicky. Výcvik v těchto prostředích by se obvykle zhroutil pod vlivem hluku. Článek tedy explicitně modeluje skutečné nedokonalosti: nejasné instrukce, selhání nástrojů, částečné výstupy. Hluk není považován za okrajový případ. Je to zakomponováno do učebních osnov, postupně se to zvyšuje v složitosti, takže robustnost se učí, ne až později opravuje. Navíc rozšiřují asynchronní posilované učení (DORA) pro dlouhodobé, vícetahové interakce ve velkém měřítku, čímž udržují trénink stabilní i při desítkách tisíc současných prostředí. V době inference model zavádí režim těžkého myšlení. Místo jednoho dlouhého řetězce myšlenek vede paralelními cestami uvažování, které pak agreguje přes sekundární reflexní fázi. To škáluje hloubku i šířku uvažování a konzistentně překonává vlastní konzistenci u složitých úkolů. Výsledky jsou pozoruhodné. LongCat-Flash-Thinking-2601 dosahuje špičkových výsledků mezi open-source modely na agentických benchmarkech jako BrowseComp, τ²-Bench a VitaBench, přičemž zůstává konkurenceschopný vůči uzavřeným modelům v matematice, kódování a vyhledávání. Důležitější je, že výkon se za hlučných podmínek zhoršuje mnohem méně. Širší důsledek je nepříjemný, ale jasný: kvalita uvažování už není úzkým hrdlem. Generalizace ano. A zobecňování přichází z prostředí, ne z podnětů. Tento článek tvrdí, že pokud chceme agenty pracovat mimo demonstrace, musíme přestat je trénovat v čistých, imaginárních světech. Skutečná inteligence se vytváří tam, kde se věci rozbijí. Článek: Technická zpráva LongCat-Flash-Thinking-2601