🚀 Scalarea încorporațiilor, nu doar experților—introducând o nouă cale pentru LLM-uri eficiente. Constatare cheie: În scenarii cu raritate ridicată, încorporarea N-gramurilor oferă o frontieră Pareto mai bună decât simpla adăugare a mai multor experți MoE. Prin urmare, introducem LongCat-Flash-Lite—primul model opensource construit pe această perspectivă. ⚙️ 68,5B Total Params(37,13B non-embedding) | 2.9B~4.5B Activ 📊 Performanță ridicată: SWE-Bench 54.4 | τ²-Bench 72.8 | TerminalBench 33.75 📃 Fereastră de context 256K (alimentată de YARN) ✨ Optimizat pentru Agentic/Coding, puternic în raționament general ⚡ ~700 token/s viteză maximă de inferență Rezultatul: Obține performanță competitivă la scara sa, cu un cost și o latență semnificativ mai mici. Față de îmbrățișare: Raport tehnic: