🚀 LongCat-Flash-Thinking-2601 tekninen raportti – Nyt täysin julkaistu! Keskeiset oivallukset: 🌍 Laajamittainen agenttinen RL (14 sivua syvällisiä sukelluksia!) 🔹 Ympäristön skaalaus: Yksityiskohtainen katsaus automatisoituun putkeemme, joka rakentaa 10 000+ suoritettavaa, todennettavaa ympäristöä 20+ domainiin. 🔹 RL-infrastruktuuri: Päivitetty DORA-kehys, joka tukee asynkronista koulutusta 32 000+ samanaikaisessa ympäristössä, ratkaisten vakausongelmia pitkän hännän ja hyvin heterogeenisissa tehtävissä. 🛡️ Kestävyys luonnossa 🔹 Melun injektio: Ei enää "kasvihuone"-aineita. Analysoimme systemaattisesti todellisen maailman melua (käyttäjä/työkalun kohina) ja syötämme sen suoraan harjoitussilmukkaan. 🔹 Opetussuunnitelma RL: Opetussuunnitelmaan perustuva strategia, joka vähitellen vahvistaa mallia sotkuisia ja epätäydellisiä ympäristöjä vastaan. 🧠 Raskaan ajattelun viitekehys 🔹 Rinnakkainen päättely: Laajentaa laajuutta generoimalla useita riippumattomia päättelypolkuja. 🔹 Iteratiivinen tiivistäminen: Laajentaa syvyyttä käyttämällä yhteenvetomallia, jossa pohditaan ja yhdistetään rinnakkaisia kehityskulkuja ennen lopullisten päätösten tekemistä. 🔹 Kontekstimuisti: Tarkoitukseen rakennettu muistimoduuli, joka pitää päättelyn johdonmukaisena pitkien aikakausien ajan. ⚡ Zigzag Huomio 🔹 Zigzag Connectivity -suunnittelu yhdistää MLA + SSA vähentääkseen laskentaa samalla kun globaali tietovirta säilyy. 🔹 Kesken koulutuksen siirtyminen harvoihin variantteihin tuottaa 1,5 × nopeutuksen ja tukee 1M-token-kontekstejä — luoden pohjan tuleville läpimurroille pitkän kontekstin agenttisessa päättelyssä. 🔹 Tutustu: 📊 Saavuttaa SOTA:n joukossa avoimen lähdekoodin mallit keskeisissä agenttisissa vertailuissa: haku, työkalujen käyttö, matemaattinen päättely ja koodaus. Jos haluat lisätietoja, tutustu rohkeasti koko tekniseen raporttiin. • Paperi: • Verkkosivusto: • GitHub: • Halauskasvot: