🚀 Schalen van embeddings, niet alleen experts—introduceren een nieuw pad voor efficiënte LLM's. Belangrijkste Bevinding: In scenario's met hoge spaarzaamheid leveren N-gram embeddings een betere Pareto-grens op dan alleen het toevoegen van meer MoE-experts. Daarom introduceren we LongCat-Flash-Lite—het eerste opensource model dat op deze inzichten is gebouwd. ⚙️ 68,5B Totaal Params (37,13B niet-embedding) | 2,9B~4,5B Actief 📊 Hoge Prestaties: SWE-Bench 54,4 | τ²-Bench 72,8 | TerminalBench 33,75 📃 256K Contextvenster (YARN-aangedreven) ✨ Geoptimaliseerd voor Agentic/Coding, sterk in algemeen redeneren ⚡ ~700 tokens/s piekinferentiesnelheid Het resultaat: Bereikt concurrerende prestaties binnen zijn schaal tegen een aanzienlijk lagere kostprijs en latentie. Hugging Face: Technisch Rapport: