Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sakra... Tento článek tiše vysvětluje, proč většina "usuzujících" modelů se rozpadne ve chvíli, kdy je odpojíte od čistých benchmarků a vložíte je do reálného světa.
Tým LongCat se zabývá otázkou, kterou se obor neustále vyhýbá: pokud jsou dnešní modely tak dobré v uvažování, proč stále selhávají v základním chování agentů, když se nástroje pokazí, instrukce se rozmazávají nebo prostředí se brání?
Jejich odpověď je nepříjemná. Uvažování neselhává proto, že řetězce myšlenek jsou příliš krátké. Selhává, protože jsme trénovali myšlení bez následků.
Článek představuje LongCat-Flash-Thinking-2601, model směsi expertů s 560 parametry postavený na jednoduché, ale radikální myšlence: uvažování se stává spolehlivým pouze tehdy, když je nuceno jednat, pozorovat selhání a přizpůsobovat se v reálném prostředí.
Místo toho, aby uvažování považovali za generování textu, rámují to jako smyčku:
Pozorujte → plánujte → jednajte→ získávejte zpětnou vazbu → revidujte.
Ta změna se šíří všude. Data už nejsou statické výzvy. Výcvik není čistá cesta. Hodnocení není jednorázová odpověď.
Jedním z nejdůležitějších příspěvků je škálování prostředí. Autoři automaticky generují 10 000+ spustitelných prostředí napříč 20+ doménami, každé založené na skutečných nástrojích, skutečných databázích a více platných řešeních. Obtížnost se zvyšuje strukturálně, ne chytrými triky s prompty.
Zásadní je, že nedezinfikují svět. Selhání nástrojů, nejasné instrukce, částečné výstupy a šumová zpětná vazba jsou záměrně vkládány. Hluk není chyba. Je to o učebním plánu.
Aby udrželi trénink stabilní v tomto měřítku, rozšiřují asynchronní RL (DORA) pro dlouhodobé interakce s více tahy a desítkami tisíc současných prostředí bez kolapsu.
Při odvozování zavádějí režim těžkého myšlení. Místo jednoho dlouhého řetězce myšlenek model vede paralelní cesty uvažování a poté je před jednáním reflektuje. To je konzistentní než konzistence u složitých, agentických úkolů.
Výsledky mluví nahlas. Špičkový výkon na BrowseComp, τ²-Bench a VitaBench. Silná matematika, programování a výsledky vyhledávání. A co je nejdůležitější, mnohem menší degradace za hlučných podmínek.
Skutečný závěr je ostřejší než jakékoli referenční číslo:
Kvalita uvažování už není úzkým hrdlem.
Generalizace ano.
A zobecňování nepřichází z lepších podnětů nebo delších myšlenek. Přichází z prostředí, která se brání....

Top
Hodnocení
Oblíbené
