Tämä LongCat-tiimin artikkeli käsittelee kysymystä, joka on käymässä väistämättömäksi nykyaikaisessa tekoälytutkimuksessa: miksi päättelymallit, jotka näyttävät loistavilta benchmarkeissa, kamppailevat edelleen, kun ne pudotetaan todellisiin, sotkuisiin ympäristöihin? Kirjoittajat esittelevät LongCat-Flash-Thinking-2601 -mallin, 560B-parametrin asiantuntijoiden sekoitusmallin, joka on suunniteltu paitsi ajattelemaan myös toimimaan. Keskeinen väite on, että agenttinen päättely ei synny pelkästään paremmasta ajatusketjusta. Se syntyy jatkuvasta vuorovaikutuksesta ympäristöjen, työkalujen, melun ja epäonnistumisten kanssa. Tekninen liike on hienovarainen mutta tärkeä. Sen sijaan, että päättelyä käsiteltäisiin staattisena tekstiongelmana, artikkeli kehystää sen suljetun silmukan prosessina: havainnoi, → suunnittele → toimi → saa palautetta → muokkaa. Tuo muutos pakottaa muuttamaan kaikkialla: datan rakentamista, koulutusalgoritmeja, infrastruktuuria ja jopa päättelyajan käyttäytymistä. Merkittävä panos on ympäristön skaalaus. Sen sijaan, että luottaisiin muutamaan käsin laadittuihin agenttivertailuihin, kirjoittajat rakentavat automatisoidun putkiston, joka tuottaa yli 10 000 suoritettavaa ympäristöä 20+ domainissa. Jokainen ympäristö perustuu todellisiin työkaluriippuvuuksiin, vahvistettuihin tietokantoihin ja useisiin päteviin ratkaisupolkuihin. Vaikeustaso skaalautuu rakenteellisesti, ei heuristisesti. Harjoittelu näissä ympäristöissä romahtaisi normaalisti melun alla. Näin ollen artikkeli mallintaa eksplisiittisesti todellisia maailman epätäydellisyyksiä: epäselvät ohjeet, työkalun viat, osittaiset tulokset. Melua ei käsitellä poikkeustapauksena. Se on sisäänrakennettu opetussuunnitelmaan, ja se monimutkaistuu vähitellen, jotta kestävyys opitaan, ei korjata myöhemmin. Lisäksi he laajentavat asynkronista vahvistusoppimista (DORA) käsittelemään pitkähäntäisiä, monivuoroisia vuorovaikutuksia laajassa mittakaavassa, pitäen koulutuksen vakaana jopa kymmenissä tuhansissa samanaikaisissa ympäristöissä. Päättelyhetkellä malli ottaa käyttöön raskaan ajattelun tilan. Yhden pitkän ajatusketjun sijaan se kulkee rinnakkaisia päättelypolkuja ja yhdistää ne toissijaisen reflektiivisen vaiheen läpi. Tämä skaalaa sekä päättelyn syvyyttä että leveyttä, ja voittaa johdonmukaisuuden monimutkaisissa tehtävissä johdonmukaisuudessa. Tulokset ovat vaikuttavia. LongCat-Flash-Thinking-2601 asettaa huipputason suorituskyvyn avoimen lähdekoodin malleissa agenttivertailuissa kuten BrowseComp, τ²-Bench ja VitaBench, mutta pysyy kilpailukykyisenä suljettujen mallien kanssa matematiikassa, koodauksessa ja haussa. Tärkeämpää on, että suorituskyky heikkenee huomattavasti vähemmän meluisissa olosuhteissa. Laajempi seuraus on epämiellyttävä mutta selvä: päättelyn laatu ei enää ole pullonkaula. Yleistys on. Ja yleistys tulee ympäristöistä, ei kehotteista. Tämä artikkeli väittää, että jos haluamme agentteja, jotka työskentelevät demojen ulkopuolella, meidän täytyy lopettaa heidän kouluttamisensa puhtaisiin, kuvitteellisten maailmojen käyttöön. Todellinen älykkyys syntyy siellä, missä asiat murtuvat. Artikkeli: LongCat-Flash-Thinking-2601 tekninen raportti