🚀 LongCat-Flash-Thinking-2601 teknisk rapport – nå fullt utgitt! Viktige innsikter: 🌍 Storskala agentisk RL (14 sider med dypdykker!) 🔹 Miljøskalering: En detaljert gjennomgang av vår automatiserte pipeline som bygger 10 000+ kjørbare, verifiserbare miljøer på tvers av 20+ domener. 🔹 RL-infrastruktur: Et oppgradert DORA-rammeverk som støtter asynkron trening med 32 000+ samtidige miljøer, og tar tak i stabilitetsproblemer i langhalede og svært heterogene oppgaver. 🛡️ Robusthet i naturen 🔹 Støyinjeksjon: Ikke flere "drivhus"-midler. Vi analyserer systematisk støy fra den virkelige verden (bruker-/verktøystøy) og injiserer den direkte i treningssløyfen. 🔹 Curriculum RL: En læreplanbasert strategi som gradvis gjør modellen tøffere mot rotete, ufullkomne miljøer. 🧠 Heavy Thinking-rammeverk 🔹 Parallell resonnering: Utvider bredden ved å generere flere uavhengige resonnementsbaner. 🔹 Iterativ oppsummering: Utvider dybden ved å bruke en oppsummeringsmodell for å reflektere over og syntetisere parallelle forløp før endelige beslutninger tas. 🔹 Kontekstminne: En spesialbygd minnemodul for å holde resonnementet sammenhengende over lange horisonter. ⚡ Sikksakk-oppmerksomhet 🔹 Zigzag-tilkoblingsdesign kombinerer MLA + SSA for å redusere beregningskraft samtidig som global informasjonsflyt bevares. 🔹 Overgang midt i trening til sparsomme varianter gir en hastighetsøkning på 1,5 × og støtter 1M-token-kontekster — noe som legger grunnlaget for fremtidige gjennombrudd innen lang-kontekst agentisk resonnement. 🔹 Utforsk: 📊 Oppnår SOTA blant Åpen kildekode-modeller på tvers av sentrale agentiske referansepunkter: søk, verktøybruk, matematisk resonnement og koding. Hvis du vil ha flere detaljer, er det bare å sjekke ut hele den tekniske rapporten. • Artikkel: • Nettside: • GitHub: • Klemmeansikt: