🚀 Skalering av embeddings, ikke bare eksperter – som introduserer en ny vei for effektive LLM-er. Hovedfunn: I scenarioer med høy sparsitet gir N-gram-innleiringer en bedre Pareto-grense enn bare å legge til flere MoE-eksperter. Derfor introduserer vi LongCat-Flash-Lite – den første åpen kildekode-modellen bygget på denne innsikten. ⚙️ 68,5 milliarder totale parametere (37,13 milliarder ikke-embedding) | 2.9B~4.5B Aktiv 📊 Høy ytelse: SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33,75 📃 256K kontekstvindu (YARN-drevet) ✨ Optimalisert for agentisk/koding, sterk i generell resonnement ⚡ ~700 tokens/s topp inferenshastighet Resultatet: Oppnår konkurransedyktig ytelse innenfor skalaen til betydelig lavere kostnad og latenstid. Klemmeansikt: Teknisk rapport: