Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Denne artikkelen fra LongCat-teamet tar for seg et spørsmål som blir stadig mer uunngåelig i moderne AI-forskning: hvorfor sliter resonnementmodeller som ser strålende ut på benchmarks fortsatt når de plasseres i virkelige, rotete miljøer?
Forfatterne introduserer LongCat-Flash-Thinking-2601, en 560B-parameter Mixture-of-Experts-modell designet ikke bare for å tenke, men for å handle. Hovedpåstanden er at agentisk resonnement ikke oppstår kun fra bedre tankerekke. Den oppstår gjennom vedvarende interaksjon med miljøer, verktøy, støy og feil.
Det tekniske trekket er subtilt, men viktig. I stedet for å behandle resonnement som et statisk tekstproblem, rammer artikkelen det inn som en lukket prosess: observer → planlegg → handle → motta tilbakemelding → revidere.
Dette skiftet tvinger frem endringer overalt: datakonstruksjon, treningsalgoritmer, infrastruktur og til og med inferenstidsatferd.
Et viktig bidrag er miljøskalering. I stedet for å stole på noen håndlagde agent-benchmarks, bygger forfatterne en automatisert pipeline som genererer over 10 000 kjørbare miljøer på tvers av 20+ domener. Hvert miljø er forankret i reelle verktøyavhengigheter, verifiserte databaser og flere gyldige løsningsstier. Vanskelighetsgraden skalerer strukturelt, ikke heuristisk.
Trening i disse miljøene ville normalt kollapse under støy. Så artikkelen modellerer eksplisitt virkelige ufullkommenheter: tvetydige instruksjoner, verktøyfeil, delvise utdata.
Støy behandles ikke som et randtilfelle. Det er innebygd i pensum, og øker gradvis i kompleksitet slik at robusthet læres, ikke patches senere.
I tillegg utvider de asynkron forsterkningslæring (DORA) for å håndtere langhalede, fleromgangsinteraksjoner i stor skala, og holder treningen stabil selv med titusenvis av samtidige miljøer.
Ved slutningstidspunktet introduserer modellen Heavy Thinking Mode. I stedet for én lang tankerekke, kjører den parallelle resonnementsveier, og aggregerer dem deretter gjennom et sekundært reflekterende stadium. Dette skalerer både resonnementets dybde og bredde, og slår konsekvent selvkonsistens på komplekse oppgaver.
Resultatene er slående. LongCat-Flash-Thinking-2601 setter topp moderne ytelse blant åpen kildekode-modeller på agentiske benchmarks som BrowseComp, τ²-Bench og VitaBench, samtidig som det forblir konkurransedyktig med lukkede modeller innen matematikk, koding og søk.
Enda viktigere er det at ytelsen forringes langt mindre under støyende forhold.
Den bredere implikasjonen er ubehagelig, men klar: resonnementets kvalitet er ikke lenger flaskehalsen. Generalisering er det. Og generalisering kommer fra miljøer, ikke prompter.
Denne artikkelen argumenterer for at hvis vi vil ha agenter som jobber utenfor demoer, må vi slutte å trene dem i rene, imaginære verdener. Ekte intelligens smides der ting går i stykker.
Artikkel: LongCat-Flash-Thinking-2601 Teknisk rapport

Topp
Rangering
Favoritter
