🚀 Skalande inbäddningar, inte bara experter – att introducera en ny väg för effektiva LLM:er. Viktig upptäckt: I scenarier med hög gleshet ger N-gram-inbäddningar en bättre Pareto-gräns än att bara lägga till fler MoE-experter. Därför introducerar vi LongCat-Flash-Lite – den första öppna källkodsmodellen som bygger på denna insikt. ⚙️ 68,5 miljarder totala parametrar (37,13 miljarder icke-inbäddade) | 2.9B~4.5B Aktiv 📊 Högpresterande: SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 256K kontextfönster (YARN-drivet) ✨ Optimerad för agentisk/kodning, stark i allmän logik ⚡ ~700 tokens/s topp slutledningshastighet Resultatet: Uppnår konkurrenskraftig prestanda inom sin skala till en avsevärt lägre kostnad och latens. Kramande ansikte: Teknisk rapport: