Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tento článek od týmu LongCat se zabývá otázkou, která se v moderním výzkumu AI stává nevyhnutelnou: proč mají modely uvažování, které vypadají skvěle na benchmarkech, stále zápasit i při vsazení do reálných, chaotických prostředí?
Autoři představují LongCat-Flash-Thinking-2601, 560B-parametrový model Mixture-of-Experts navržený nejen k myšlení, ale i k jednání. Ústředním tvrzením je, že agentické uvažování nevzniká pouze z lepšího řetězce myšlení. Vzniká z dlouhodobé interakce s prostředím, nástroji, hlukem a selháním.
Technický krok je nenápadný, ale důležitý. Místo toho, aby se uvažování považovalo za statický textový problém, článek jej rámuje jako uzavřený proces: pozorovat → plánovat → jednat→ přijímat zpětnou vazbu → revidovat.
Tento posun nutí změny všude: ve konstrukci dat, tréninkových algoritmech, infrastruktuře a dokonce i chování v době inference.
Hlavním přínosem je škálování životního prostředí. Místo spoléhání se na několik ručně vytvořených benchmarků agentů autoři vytvářejí automatizovaný pipeline, který generuje přes 10 000 spustitelných prostředí na 20+ doménách. Každé prostředí je založeno na skutečných závislostech nástrojů, ověřených databázích a více platných cestách řešení. Obtížnost škáluje strukturálně, ne heuristicky.
Výcvik v těchto prostředích by se obvykle zhroutil pod vlivem hluku. Článek tedy explicitně modeluje skutečné nedokonalosti: nejasné instrukce, selhání nástrojů, částečné výstupy.
Hluk není považován za okrajový případ. Je to zakomponováno do učebních osnov, postupně se to zvyšuje v složitosti, takže robustnost se učí, ne až později opravuje.
Navíc rozšiřují asynchronní posilované učení (DORA) pro dlouhodobé, vícetahové interakce ve velkém měřítku, čímž udržují trénink stabilní i při desítkách tisíc současných prostředí.
V době inference model zavádí režim těžkého myšlení. Místo jednoho dlouhého řetězce myšlenek vede paralelními cestami uvažování, které pak agreguje přes sekundární reflexní fázi. To škáluje hloubku i šířku uvažování a konzistentně překonává vlastní konzistenci u složitých úkolů.
Výsledky jsou pozoruhodné. LongCat-Flash-Thinking-2601 dosahuje špičkových výsledků mezi open-source modely na agentických benchmarkech jako BrowseComp, τ²-Bench a VitaBench, přičemž zůstává konkurenceschopný vůči uzavřeným modelům v matematice, kódování a vyhledávání.
Důležitější je, že výkon se za hlučných podmínek zhoršuje mnohem méně.
Širší důsledek je nepříjemný, ale jasný: kvalita uvažování už není úzkým hrdlem. Generalizace ano. A zobecňování přichází z prostředí, ne z podnětů.
Tento článek tvrdí, že pokud chceme agenty pracovat mimo demonstrace, musíme přestat je trénovat v čistých, imaginárních světech. Skutečná inteligence se vytváří tam, kde se věci rozbijí.
Článek: Technická zpráva LongCat-Flash-Thinking-2601

Top
Hodnocení
Oblíbené
